Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
YOLOv10~v12
Search
TakatoYoshikawa
April 16, 2025
Technology
6
1.5k
YOLOv10~v12
DeNA/Go CV輪講の発表時の資料です。
YOLOv10~v12の改良点を調査し、まとめました。
TakatoYoshikawa
April 16, 2025
Tweet
Share
More Decks by TakatoYoshikawa
See All by TakatoYoshikawa
Segment Anything Modelの最新動向:SAM2とその発展系
tenten0727
0
1.4k
DETR手法の変遷と最新動向(CVPR2025)
tenten0727
4
3.3k
Segment Anything Model 2 (SAM2)
tenten0727
4
2.2k
Other Decks in Technology
See All in Technology
Railsの話をしよう
yahonda
0
170
ソフトウェアエンジニアの生成AI活用と、これから
lycorptech_jp
PRO
0
830
From Natural Language to K8s Operations: The MCP Architecture and Practice of kubectl-ai
appleboy
0
110
[2025年10月版] Databricks Data + AI Boot Camp
databricksjapan
1
240
AI時代の開発を加速する組織づくり - ブログでは書けなかったリアル
hiro8ma
1
250
Linux カーネルが支えるコンテナの仕組み / LF Japan Community Days 2025 Osaka
tenforward
1
110
Claude Codeを駆使した初めてのiOSアプリ開発 ~ゼロから3週間でグローバルハッカソンで入賞するまで~
oikon48
10
5.4k
Introduction to Sansan Meishi Maker Development Engineer
sansan33
PRO
0
310
ハノーファーメッセ2025で見た生成AI活用ユースケース.pdf
hamadakoji
0
390
AWS UG Grantでグローバル20名に選出されてre:Inventに行く話と、マルチクラウドセキュリティの教科書を執筆した話 / The Story of Being Selected for the AWS UG Grant to Attending re:Invent, and Writing a Multi-Cloud Security Textbook
yuj1osm
1
120
クラウドとリアルの融合により、製造業はどう変わるのか?〜クラスメソッドの製造業への取組と共に〜
hamadakoji
0
350
名刺メーカーDevグループ 紹介資料
sansan33
PRO
0
940
Featured
See All Featured
Building an army of robots
kneath
305
46k
Keith and Marios Guide to Fast Websites
keithpitt
411
23k
[RailsConf 2023] Rails as a piece of cake
palkan
57
5.9k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.2k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4k
Code Review Best Practice
trishagee
72
19k
Writing Fast Ruby
sferik
629
62k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Java REST API Framework Comparison - PWX 2021
mraible
34
8.9k
What's in a price? How to price your products and services
michaelherold
246
12k
Become a Pro
speakerdeck
PRO
29
5.6k
Bash Introduction
62gerente
615
210k
Transcript
AI 2025.3.21 Takato Yoshikawa 株式会社ディー・エヌ・エー + GO株式会社 YOLOv10~v12
AI 2 ❏ Object Detectionタスクでよく使われる手法YOLO ❏ 性能と効率のバランスが良い ❏ 最近のYOLOはどこを改善しているのか はじめに
https://arxiv.org/pdf/1506.02640
AI 3 01 YOLOv10
AI 4 ❏ YOLOv10の改善 a. 推論時のNMS(Non-Maximum Suppression)による後処理を 不要にする学習方法 → End-to-endのObject
Detectionへ b. 効率と精度を両立させるためのモデルアーキテクチャの改善 YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024] 速度/精度、モデルサイズ/精度のトレードオフで 既存手法を上回る
AI 5 ❏ NMSによる後処理 1. 信頼度がしきい値以下のBBoxを削除 2. 最も信頼度が高いBBoxと他のBBoxとのIoUを計算 3. IoUがしきい値以上のBBoxを削除
❏ NMSの課題点 ❏ End-to-endでないため、精度がしきい値 に依存する ❏ NMSにかかる時間分推論速度が低下する 0.8 0.9 0.7 https://arxiv.org/abs/2304.08069 YOLOv8でそれぞれのしきい値を変化させたときの 精度とNMSにかかる時間の変化 YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 6 ❏ One-to-one Headを追加 ❏ Detection Transformerを参考に 各GTに対して複数のBBox とLossを計算
(従来のYOLOと同様) 各GTに対して1つのBBox とLossを計算 YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 7 ❏ Consistent dual assignment ❏ 学習時は両方のヘッドで最適化 ❏ 推論時はOne-to-one
Headのみ使用 →NMS不要でEnd-to-endの推論が可能に! YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 8 ❏ Consistent matching metric ❏ 各GTに対してどの予測BBoxを割り当てるか ❏ 以下の指標を元に割り当て
❏ One-to-manyはtop n個を割り当て ❏ α, βは分類と位置のタスクの重要度のバランス を取るハイパーパラメータ ❏ One-to-oneとOne-to-manyそれぞれで同じパラメータにすることで 両方のヘッドの最適な予測BBoxが同じになるように学習が進む GTの中にアンカーポイント があるかどうか0/1 分類スコア GTと予測BBox のIoU YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 9 ❏ 効率化のためのモデルアーキテクチャ改善 ❏ クラス分類のConv→Depthwise conv + Pointwise convに変更
❏ 空間ダウンサンプリング時のConv→Pointwise conv + Depthwise convに変更 ❏ 各ステージの最後の畳み込みのランクが低いブロックを より効率的なCIBブロックに置き換える 各ステージ・スケールのランク CIBブロック YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 10 ❏ 精度向上のためのモデルアーキテクチャ改善 ❏ 大きいカーネルによる畳み込みの導入 ❏ 一部にMulti-head self-attentionを導入 YOLOv10:
Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 11 02 YOLOv11
AI 12 ❏ YOLOv8同様論文はない ❏ 別の人がまとめた資料やgithubのissueを参照 ❏ 公式の名前はYOLOv11ではなくYOLO11? YOLOv11
AI 13 ❏ アーキテクチャの変更 ❏ (おそらく)YOLOv8をベースに 以下の改良を加える ❏ C2fブロック→C3k2ブロックに ❏
SPPFの後ろにCross Stage Partial with Spatial Attention (C2PSA) ブロックを追加 ❏ 幅広いタスクをサポート ❏ 物体検出、instance segmentation ❏ pose estimation ❏ 画像分類 ❏ Oriented Detection YOLOv11 https://github.com/ultralytics/ultralytics/issues/17102
AI 14 ❏ YOLOv10と比べた性能 ❏ 同じスケールのモデルでmAPやLatencyは少し改善 ❏ パラメータ数やFLOPsはYOLOv10のほうが良い YOLOv11 https://docs.ultralytics.com/ja/models/yolo11/
Model mAPval 50-90 Latenc y T4 params FLOPs YOLO v10-m 51.1% 4.74ms 15.4M 59.1G YOLO v11-m 51.5% 4.7 ms 20.1M 68.0G
AI 15 03 YOLOv12
AI 16 ❏ アーキテクチャの変更 1. Area attention (A2) moduleの導入 2.
Residual Efficient Layer Aggregation Networks(R-ELAN) の導入 3. アーキテクチャの調整 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 17 ❏ Area Attention (A2) Module ❏ 特徴マップを(H/l, W)
or(H, W/I)に分割してAttentionを計算 ❏ window分割の処理等が不要で、reshapeのみで動作するので高速 ❏ l=4で実装 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 18 ❏ R-ELAN (Residual Efficient Layer Aggregation Networks) a.
CSPNet ❏ DenseNetの利点を活かしつつ、勾配経路に着目し 最初に特徴マップを分岐(勾配経路を分岐)させることで、 大きいモデルでも安定した学習+計算効率UP b. ELAN ❏ ブロックの途中も分岐させて、短い勾配経路を増やすことで 層を増やしてもより安定した学習になり、精度向上 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 19 ❏ R-ELAN (Residual Efficient Layer Aggregation Networks) c.
C3K2(YOLOv11で使用) ❏ 1つの大きな畳み込みの代わりに、分岐させた2つの畳み込みを使うことで 計算効率を上げる d. R-ELAN ❏ ELANのConvをA2モジュールにすると収束しづらい(特に大きいモデル) ❏ 特徴マップの分岐はせずに、残差ショートカットを追加 →学習が安定+計算コストやパラメータも削減 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 20 ❏ アーキテクチャの調整 ❏ backboneの最初の2ステージはYOLOv11と同様 ❏ 残りのC3k2→R-ELANに ❏ backboneの最後の3ブロックもR-ELAN
❏ Attention moduleの調整 ❏ Linear+LNの代わりにConv2d+BN ❏ Positional Encodingの代わりに7x7畳み込みで位置情報を補助 など YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 21 ❏ 性能 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+,
arXiv2025]
AI 22 まとめ ❏ YOLOv10 ❏ NMSを不要にする学習方法でEnd-to-endに ❏ DETRに近い学習方法 ❏
YOLOv11 ❏ アーキテクチャの調整 ❏ YOLOv12 ❏ Attention機構の導入 ❏ それに伴うR-ELANの導入