YOLOv10~v12

AI 2025.3.21 Takato Yoshikawa 株式会社ディー・エヌ・エー＋ GO株式会社 YOLOv10~v12

AI 2 ❏ Object Detectionタスクでよく使われる手法YOLO ❏ 性能と効率のバランスが良い ❏ 最近のYOLOはどこを改善しているのかはじめに
https://arxiv.org/pdf/1506.02640

AI 3 01 YOLOv10

AI 4 ❏ YOLOv10の改善 a. 推論時のNMS（Non-Maximum Suppression）による後処理を不要にする学習方法 → End-to-endのObject
Detectionへ b. 効率と精度を両立させるためのモデルアーキテクチャの改善 YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024] 速度/精度、モデルサイズ/精度のトレードオフで既存手法を上回る

AI 5 ❏ NMSによる後処理 1. 信頼度がしきい値以下のBBoxを削除 2. 最も信頼度が高いBBoxと他のBBoxとのIoUを計算 3. IoUがしきい値以上のBBoxを削除
❏ NMSの課題点 ❏ End-to-endでないため、精度がしきい値に依存する ❏ NMSにかかる時間分推論速度が低下する 0.8 0.9 0.7 https://arxiv.org/abs/2304.08069 YOLOv8でそれぞれのしきい値を変化させたときの精度とNMSにかかる時間の変化 YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]

AI 6 ❏ One-to-one Headを追加 ❏ Detection Transformerを参考に各GTに対して複数のBBox とLossを計算
（従来のYOLOと同様）各GTに対して１つのBBox とLossを計算 YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]

AI 7 ❏ Consistent dual assignment ❏ 学習時は両方のヘッドで最適化 ❏ 推論時はOne-to-one
Headのみ使用 →NMS不要でEnd-to-endの推論が可能に！ YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]

AI 8 ❏ Consistent matching metric ❏ 各GTに対してどの予測BBoxを割り当てるか ❏ 以下の指標を元に割り当て
❏ One-to-manyはtop n個を割り当て ❏ α, βは分類と位置のタスクの重要度のバランスを取るハイパーパラメータ ❏ One-to-oneとOne-to-manyそれぞれで同じパラメータにすることで両方のヘッドの最適な予測BBoxが同じになるように学習が進む GTの中にアンカーポイントがあるかどうか0/1 分類スコア GTと予測BBox のIoU YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]

AI 9 ❏ 効率化のためのモデルアーキテクチャ改善 ❏ クラス分類のConv→Depthwise conv + Pointwise convに変更
❏ 空間ダウンサンプリング時のConv→Pointwise conv + Depthwise convに変更 ❏ 各ステージの最後の畳み込みのランクが低いブロックをより効率的なCIBブロックに置き換える各ステージ・スケールのランク CIBブロック YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]

AI 10 ❏ 精度向上のためのモデルアーキテクチャ改善 ❏ 大きいカーネルによる畳み込みの導入 ❏ 一部にMulti-head self-attentionを導入 YOLOv10:
Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]

AI 11 02 YOLOv11

AI 12 ❏ YOLOv8同様論文はない ❏ 別の人がまとめた資料やgithubのissueを参照 ❏ 公式の名前はYOLOv11ではなくYOLO11？ YOLOv11

AI 13 ❏ アーキテクチャの変更 ❏ (おそらく)YOLOv8をベースに以下の改良を加える ❏ C2fブロック→C3k2ブロックに ❏
SPPFの後ろにCross Stage Partial with Spatial Attention (C2PSA) ブロックを追加 ❏ 幅広いタスクをサポート ❏ 物体検出、instance segmentation ❏ pose estimation ❏ 画像分類 ❏ Oriented Detection YOLOv11 https://github.com/ultralytics/ultralytics/issues/17102

AI 14 ❏ YOLOv10と比べた性能 ❏ 同じスケールのモデルでmAPやLatencyは少し改善 ❏ パラメータ数やFLOPsはYOLOv10のほうが良い YOLOv11 https://docs.ultralytics.com/ja/models/yolo11/
Model mAPval 50-90 Latenc y T4 params FLOPs YOLO v10-m 51.1% 4.74ms 15.4M 59.1G YOLO v11-m 51.5% 4.7 ms 20.1M 68.0G

AI 15 03 YOLOv12

AI 16 ❏ アーキテクチャの変更 1. Area attention (A2) moduleの導入 2.
Residual Eﬃcient Layer Aggregation Networks（R-ELAN）の導入 3. アーキテクチャの調整 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]

AI 17 ❏ Area Attention (A2) Module ❏ 特徴マップを(H/l, W)
or（H, W/I）に分割してAttentionを計算 ❏ window分割の処理等が不要で、reshapeのみで動作するので高速 ❏ l=4で実装 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]

AI 18 ❏ R-ELAN (Residual Eﬃcient Layer Aggregation Networks) a.
CSPNet ❏ DenseNetの利点を活かしつつ、勾配経路に着目し最初に特徴マップを分岐（勾配経路を分岐）させることで、大きいモデルでも安定した学習+計算効率UP b. ELAN ❏ ブロックの途中も分岐させて、短い勾配経路を増やすことで層を増やしてもより安定した学習になり、精度向上 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]

AI 19 ❏ R-ELAN (Residual Eﬃcient Layer Aggregation Networks) c.
C3K2(YOLOv11で使用) ❏ 1つの大きな畳み込みの代わりに、分岐させた２つの畳み込みを使うことで計算効率を上げる d. R-ELAN ❏ ELANのConvをA2モジュールにすると収束しづらい（特に大きいモデル） ❏ 特徴マップの分岐はせずに、残差ショートカットを追加 →学習が安定＋計算コストやパラメータも削減 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]

AI 20 ❏ アーキテクチャの調整 ❏ backboneの最初の２ステージはYOLOv11と同様 ❏ 残りのC3k2→R-ELANに ❏ backboneの最後の３ブロックもR-ELAN
❏ Attention moduleの調整 ❏ Linear+LNの代わりにConv2d+BN ❏ Positional Encodingの代わりに7x7畳み込みで位置情報を補助　など YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]

AI 21 ❏ 性能 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+,
arXiv2025]

AI 22 まとめ ❏ YOLOv10 ❏ NMSを不要にする学習方法でEnd-to-endに ❏ DETRに近い学習方法 ❏
YOLOv11 ❏ アーキテクチャの調整 ❏ YOLOv12 ❏ Attention機構の導入 ❏ それに伴うR-ELANの導入

YOLOv10~v12

YOLOv10~v12

TakatoYoshikawa

More Decks by TakatoYoshikawa

Other Decks in Technology

Featured

Transcript

AI 2025.3.21 Takato Yoshikawa 株式会社ディー・エヌ・エー＋ GO株式会社 YOLOv10~v12

AI 2 ❏ Object Detectionタスクでよく使われる手法YOLO ❏ 性能と効率のバランスが良い ❏ 最近のYOLOはどこを改善しているのかはじめに

AI 3 01 YOLOv10

AI 4 ❏ YOLOv10の改善 a. 推論時のNMS（Non-Maximum Suppression）による後処理を不要にする学習方法 → End-to-endのObject

AI 5 ❏ NMSによる後処理 1. 信頼度がしきい値以下のBBoxを削除 2. 最も信頼度が高いBBoxと他のBBoxとのIoUを計算 3. IoUがしきい値以上のBBoxを削除

AI 6 ❏ One-to-one Headを追加 ❏ Detection Transformerを参考に各GTに対して複数のBBox とLossを計算

AI 7 ❏ Consistent dual assignment ❏ 学習時は両方のヘッドで最適化 ❏ 推論時はOne-to-one

AI 8 ❏ Consistent matching metric ❏ 各GTに対してどの予測BBoxを割り当てるか ❏ 以下の指標を元に割り当て

AI 9 ❏ 効率化のためのモデルアーキテクチャ改善 ❏ クラス分類のConv→Depthwise conv + Pointwise convに変更

AI 10 ❏ 精度向上のためのモデルアーキテクチャ改善 ❏ 大きいカーネルによる畳み込みの導入 ❏ 一部にMulti-head self-attentionを導入 YOLOv10:

AI 11 02 YOLOv11

AI 12 ❏ YOLOv8同様論文はない ❏ 別の人がまとめた資料やgithubのissueを参照 ❏ 公式の名前はYOLOv11ではなくYOLO11？ YOLOv11

AI 13 ❏ アーキテクチャの変更 ❏ (おそらく)YOLOv8をベースに以下の改良を加える ❏ C2fブロック→C3k2ブロックに ❏

AI 14 ❏ YOLOv10と比べた性能 ❏ 同じスケールのモデルでmAPやLatencyは少し改善 ❏ パラメータ数やFLOPsはYOLOv10のほうが良い YOLOv11 https://docs.ultralytics.com/ja/models/yolo11/

AI 15 03 YOLOv12

AI 16 ❏ アーキテクチャの変更 1. Area attention (A2) moduleの導入 2.

AI 17 ❏ Area Attention (A2) Module ❏ 特徴マップを(H/l, W)

AI 18 ❏ R-ELAN (Residual Eﬃcient Layer Aggregation Networks) a.

AI 19 ❏ R-ELAN (Residual Eﬃcient Layer Aggregation Networks) c.

AI 20 ❏ アーキテクチャの調整 ❏ backboneの最初の２ステージはYOLOv11と同様 ❏ 残りのC3k2→R-ELANに ❏ backboneの最後の３ブロックもR-ELAN

AI 21 ❏ 性能 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+,

AI 22 まとめ ❏ YOLOv10 ❏ NMSを不要にする学習方法でEnd-to-endに ❏ DETRに近い学習方法 ❏