Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
YOLOv10~v12
Search
TakatoYoshikawa
April 16, 2025
Technology
6
1.6k
YOLOv10~v12
DeNA/Go CV輪講の発表時の資料です。
YOLOv10~v12の改良点を調査し、まとめました。
TakatoYoshikawa
April 16, 2025
Tweet
Share
More Decks by TakatoYoshikawa
See All by TakatoYoshikawa
Segment Anything Modelの最新動向:SAM2とその発展系
tenten0727
0
1.9k
DETR手法の変遷と最新動向(CVPR2025)
tenten0727
4
4k
Segment Anything Model 2 (SAM2)
tenten0727
4
2.4k
Other Decks in Technology
See All in Technology
Agent Skillsがハーネスの垣根を超える日
gotalab555
6
4k
TED_modeki_共創ラボ_20251203.pdf
iotcomjpadmin
0
140
20251219 OpenIDファウンデーション・ジャパン紹介 / OpenID Foundation Japan Intro
oidfj
0
480
ペアーズにおけるAIエージェント 基盤とText to SQLツールの紹介
hisamouna
2
1.5k
"人"が頑張るAI駆動開発
yokomachi
1
110
障害対応訓練、その前に
coconala_engineer
0
190
【開発を止めるな】機能追加と並行して進めるアーキテクチャ改善/Keep Shipping: Architecture Improvements Without Pausing Dev
bitkey
PRO
1
120
M&Aで拡大し続けるGENDAのデータ活用を促すためのDatabricks権限管理 / AEON TECH HUB #22
genda
0
230
Bedrock AgentCore Memoryの新機能 (Episode) を試してみた / try Bedrock AgentCore Memory Episodic functionarity
hoshi7_n
2
1.7k
事業の財務責任に向き合うリクルートデータプラットフォームのFinOps
recruitengineers
PRO
2
190
普段使ってるClaude Skillsの紹介(by Notebooklm)
zerebom
8
2k
松尾研LLM講座2025 応用編Day3「軽量化」 講義資料
aratako
3
2.2k
Featured
See All Featured
The agentic SEO stack - context over prompts
schlessera
0
560
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.6k
How to make the Groovebox
asonas
2
1.8k
Practical Orchestrator
shlominoach
190
11k
Exploring anti-patterns in Rails
aemeredith
2
200
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
850
ラッコキーワード サービス紹介資料
rakko
0
1.8M
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.8k
Why Our Code Smells
bkeepers
PRO
340
57k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
0
400
Utilizing Notion as your number one productivity tool
mfonobong
2
190
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
100
Transcript
AI 2025.3.21 Takato Yoshikawa 株式会社ディー・エヌ・エー + GO株式会社 YOLOv10~v12
AI 2 ❏ Object Detectionタスクでよく使われる手法YOLO ❏ 性能と効率のバランスが良い ❏ 最近のYOLOはどこを改善しているのか はじめに
https://arxiv.org/pdf/1506.02640
AI 3 01 YOLOv10
AI 4 ❏ YOLOv10の改善 a. 推論時のNMS(Non-Maximum Suppression)による後処理を 不要にする学習方法 → End-to-endのObject
Detectionへ b. 効率と精度を両立させるためのモデルアーキテクチャの改善 YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024] 速度/精度、モデルサイズ/精度のトレードオフで 既存手法を上回る
AI 5 ❏ NMSによる後処理 1. 信頼度がしきい値以下のBBoxを削除 2. 最も信頼度が高いBBoxと他のBBoxとのIoUを計算 3. IoUがしきい値以上のBBoxを削除
❏ NMSの課題点 ❏ End-to-endでないため、精度がしきい値 に依存する ❏ NMSにかかる時間分推論速度が低下する 0.8 0.9 0.7 https://arxiv.org/abs/2304.08069 YOLOv8でそれぞれのしきい値を変化させたときの 精度とNMSにかかる時間の変化 YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 6 ❏ One-to-one Headを追加 ❏ Detection Transformerを参考に 各GTに対して複数のBBox とLossを計算
(従来のYOLOと同様) 各GTに対して1つのBBox とLossを計算 YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 7 ❏ Consistent dual assignment ❏ 学習時は両方のヘッドで最適化 ❏ 推論時はOne-to-one
Headのみ使用 →NMS不要でEnd-to-endの推論が可能に! YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 8 ❏ Consistent matching metric ❏ 各GTに対してどの予測BBoxを割り当てるか ❏ 以下の指標を元に割り当て
❏ One-to-manyはtop n個を割り当て ❏ α, βは分類と位置のタスクの重要度のバランス を取るハイパーパラメータ ❏ One-to-oneとOne-to-manyそれぞれで同じパラメータにすることで 両方のヘッドの最適な予測BBoxが同じになるように学習が進む GTの中にアンカーポイント があるかどうか0/1 分類スコア GTと予測BBox のIoU YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 9 ❏ 効率化のためのモデルアーキテクチャ改善 ❏ クラス分類のConv→Depthwise conv + Pointwise convに変更
❏ 空間ダウンサンプリング時のConv→Pointwise conv + Depthwise convに変更 ❏ 各ステージの最後の畳み込みのランクが低いブロックを より効率的なCIBブロックに置き換える 各ステージ・スケールのランク CIBブロック YOLOv10: Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 10 ❏ 精度向上のためのモデルアーキテクチャ改善 ❏ 大きいカーネルによる畳み込みの導入 ❏ 一部にMulti-head self-attentionを導入 YOLOv10:
Real-Time End-to-End Object Detection [Ao+, NeurIPS2024]
AI 11 02 YOLOv11
AI 12 ❏ YOLOv8同様論文はない ❏ 別の人がまとめた資料やgithubのissueを参照 ❏ 公式の名前はYOLOv11ではなくYOLO11? YOLOv11
AI 13 ❏ アーキテクチャの変更 ❏ (おそらく)YOLOv8をベースに 以下の改良を加える ❏ C2fブロック→C3k2ブロックに ❏
SPPFの後ろにCross Stage Partial with Spatial Attention (C2PSA) ブロックを追加 ❏ 幅広いタスクをサポート ❏ 物体検出、instance segmentation ❏ pose estimation ❏ 画像分類 ❏ Oriented Detection YOLOv11 https://github.com/ultralytics/ultralytics/issues/17102
AI 14 ❏ YOLOv10と比べた性能 ❏ 同じスケールのモデルでmAPやLatencyは少し改善 ❏ パラメータ数やFLOPsはYOLOv10のほうが良い YOLOv11 https://docs.ultralytics.com/ja/models/yolo11/
Model mAPval 50-90 Latenc y T4 params FLOPs YOLO v10-m 51.1% 4.74ms 15.4M 59.1G YOLO v11-m 51.5% 4.7 ms 20.1M 68.0G
AI 15 03 YOLOv12
AI 16 ❏ アーキテクチャの変更 1. Area attention (A2) moduleの導入 2.
Residual Efficient Layer Aggregation Networks(R-ELAN) の導入 3. アーキテクチャの調整 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 17 ❏ Area Attention (A2) Module ❏ 特徴マップを(H/l, W)
or(H, W/I)に分割してAttentionを計算 ❏ window分割の処理等が不要で、reshapeのみで動作するので高速 ❏ l=4で実装 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 18 ❏ R-ELAN (Residual Efficient Layer Aggregation Networks) a.
CSPNet ❏ DenseNetの利点を活かしつつ、勾配経路に着目し 最初に特徴マップを分岐(勾配経路を分岐)させることで、 大きいモデルでも安定した学習+計算効率UP b. ELAN ❏ ブロックの途中も分岐させて、短い勾配経路を増やすことで 層を増やしてもより安定した学習になり、精度向上 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 19 ❏ R-ELAN (Residual Efficient Layer Aggregation Networks) c.
C3K2(YOLOv11で使用) ❏ 1つの大きな畳み込みの代わりに、分岐させた2つの畳み込みを使うことで 計算効率を上げる d. R-ELAN ❏ ELANのConvをA2モジュールにすると収束しづらい(特に大きいモデル) ❏ 特徴マップの分岐はせずに、残差ショートカットを追加 →学習が安定+計算コストやパラメータも削減 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 20 ❏ アーキテクチャの調整 ❏ backboneの最初の2ステージはYOLOv11と同様 ❏ 残りのC3k2→R-ELANに ❏ backboneの最後の3ブロックもR-ELAN
❏ Attention moduleの調整 ❏ Linear+LNの代わりにConv2d+BN ❏ Positional Encodingの代わりに7x7畳み込みで位置情報を補助 など YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+, arXiv2025]
AI 21 ❏ 性能 YOLOv12: Attention-Centric Real-Time Object Detectors [Yunjie+,
arXiv2025]
AI 22 まとめ ❏ YOLOv10 ❏ NMSを不要にする学習方法でEnd-to-endに ❏ DETRに近い学習方法 ❏
YOLOv11 ❏ アーキテクチャの調整 ❏ YOLOv12 ❏ Attention機構の導入 ❏ それに伴うR-ELANの導入