Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DETR手法の変遷と最新動向(CVPR2025)
Search
TakatoYoshikawa
April 16, 2025
Technology
2
1k
DETR手法の変遷と最新動向(CVPR2025)
DeNA/Go CV輪講の発表時の資料です。
DETRの発展の大まかな流れとCVPR2025採択手法(Mr. DETR, DEIM)についてまとめました。
TakatoYoshikawa
April 16, 2025
Tweet
Share
More Decks by TakatoYoshikawa
See All by TakatoYoshikawa
YOLOv10~v12
tenten0727
3
850
Segment Anything Model 2 (SAM2)
tenten0727
4
1.5k
Other Decks in Technology
See All in Technology
ソフトウェア開発現代史: "LeanとDevOpsの科学"の「科学」とは何か? - DORA Report 10年の変遷を追って - #DevOpsDaysTokyo
takabow
0
190
近年の PyCon 情勢から見た PyCon APAC のまとめ
terapyon
0
290
フロントエンドも盛り上げたい!フロントエンドCBとAmplifyの軌跡
mkdev10
2
230
さくらの夕べ Debianナイト - さくらのVPS編
dictoss
0
180
こんなデータマートは嫌だ。どんな? / waiwai-data-meetup-202504
shuntak
5
1.7k
Would you THINK such a demonstration interesting ?
shumpei3
1
150
Lightdashの利活用状況 ー導入から2年経った現在地_20250409
hirokiigeta
2
270
改めて学ぶ Trait の使い方 / phpcon odawara 2025
meihei3
1
560
Cursor AgentによるパーソナルAIアシスタント育成入門―業務のプロンプト化・MCPの活用
os1ma
8
2.6k
AIと開発者の共創: エージェント時代におけるAIフレンドリーなDevOpsの実践
bicstone
1
240
システムとの会話から生まれる先手のDevOps
kakehashi
PRO
0
210
Android는 어떻게 화면을 그릴까?
davidkwon7
0
100
Featured
See All Featured
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
135
33k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
331
21k
Designing Experiences People Love
moore
141
24k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
StorybookのUI Testing Handbookを読んだ
zakiyama
29
5.6k
VelocityConf: Rendering Performance Case Studies
addyosmani
328
24k
It's Worth the Effort
3n
184
28k
Site-Speed That Sticks
csswizardry
5
480
Large-scale JavaScript Application Architecture
addyosmani
512
110k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
How to train your dragon (web standard)
notwaldorf
91
6k
Optimising Largest Contentful Paint
csswizardry
36
3.2k
Transcript
AI 2025.3.21 Takato Yoshikawa 株式会社ディー・エヌ・エー + GO株式会社 DETR手法の変遷と 最新動向(CVPR2025)
AI 2 ▪ End-to-end Object Detection ▪ End-to-end people detection
in crowded scenes [Stewart+, CVPR2016] ▪ End-to-end object detection with Transformers(DETR) [Carion+, ECCV2020] ▪ アーキテクチャ・学習方法の改良 ▪ Deformable DETR: Deformable Transformers for End-to-End Object Detection [Zhu+, ICLR2021] ▪ DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR [Liu+, ICLR2022] ▪ DN-DETR: Accelerate DETR Training by Introducing Query DeNoising [Li+, CVPR2022] ▪ DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection [Zhang+, ICLR2023] ▪ Real-time Object Detection ▪ DETRs Beat YOLOs on Real-time Object Detection [Zhao, CVPR2024] ▪ 最新手法 ▪ Mr. DETR: Instructive Multi-Route Training for Detection Transformers [Zhang+, CVPR2025] ▪ DEIM: DETR with Improved Matching for Fast Convergence [Huang+, CVPR2025] 紹介論文
AI 3 01 End-to-end Object Detection
AI 4 ▪ End-to-end Object Detectionの原型 1. CNNで特徴抽出 2. 特徴ベクトルをLSTMに入力し、confidenceが高い順にBBox出力
▪ 64x64の範囲に対するBBoxを出力 ▪ confidenceがしきい値を下回ったらstop 3. すでに予測したBBoxと被っているBBoxは後処理で削除 ▪ (End-to-end?) End-to-end people detection in crowded scenes
AI 5 ▪ Loss Function ▪ 予測BoxとGTを1対1でマッチング ▪ ハンガリアンアルゴリズム ▪
左から順に優先度を高くマッチング ▪ G=マッチしたBBox, C=予測BBoxで以下を計算 →1つのGT Boxに対して1つの予測をするように学習するため 最終的なBoxを絞り込む後処理が必要なくなる!(のでend-to-endの推論が可能) End-to-end people detection in crowded scenes コスト =(候補BBox中心がGT Box内にあるか, 出力順番, 2つのBoxのL1距離) BoxのL1 Loss マッチしたかどうかのcross entropy loss
AI 6 ▪ RNN部分をTransformerに変更 ▪ Decoderは自己回帰ではなく、1回のforwardで推論 ▪ Learnable embedding(object queries)を入力とする
▪ 大きいオブジェクトで優れた性能 ▪ 一方で、小さいオブジェクトが苦手 DETR: End-to-end object detection with Transformers
AI 7 ▪ Loss Function ▪ BBox Lossの変更 ▪ L1
LossだとBoxの大きさでスケールが異なる →Generalized IoU Lossに変更 ▪ クラス分類のcross entropy loss + BBox Loss DETR: End-to-end object detection with Transformers より詳しいDETRの日本語解説記事: https://qiita.com/DeepTama/items/937e13f6beda79be17d8
AI 8 02 アーキテクチャ・学習方法の改良
AI 9 紹介する手法 https://arxiv.org/abs/2306.04670
AI 10 ▪ DETRの課題点 1. 小さな物体の検出性能が低い 2. 収束に時間がかかる ▪ Faster
R-CNNの10~20倍 ▪ Update 1. マルチスケール特徴を使用 →高解像度特徴を使用することで小さい物体の検出精度を上げる 2. 計算・メモリ効率の高いDeformable Attentionを提案 ▪ Deformable Convolutionを参考に →マルチスケール特徴を効率的に処理しながら、収束時間を短縮 Deformable DETR
AI 11 ▪ Deformable Attention Module ▪ 各queryに対して一部の画素のみでAttentionを計算 ▪ value特徴の座標はsampling
offsetによって決まる Deformable DETR ※Attention Weightはqueryのみから算出 別のスケールの特徴に対するAttentionも計算
AI 12 ▪ Deformable Attention Module ▪ 近傍の特徴に対するAttentionのみを計算する ▪ Object
Detectionでは近傍の画素が重要になりやすいという前提を モデルに反映し、効率的なAttention計算に Deformable DETR 推論時のサンプリングポイントとAttention weight
AI 13 ▪ その他Update ▪ 反復的に予測BBoxを改善 ▪ 各Decoder layerでxywhの差分を出力 ▪
前の出力に足し合わせて、反復的にrefine ▪ Two-Stage Deformable DETR ▪ Encoderの出力特徴マップそれぞれに対して BBox回帰ヘッドと前景/背景分類ヘッドでBBoxを予測 ▪ 前景スコアが高いBBoxを反復的refineの初期値として 使い、その座標の特徴量+PEをDecoderのInputとする Deformable DETR 図:https://arxiv.org/abs/2010.04159
AI 14 ▪ 実験結果 ▪ 学習時間が大幅に減少しながら、精度も改善 Deformable DETR
AI 15 DAB-DETR (Dynamic Anchor Box DETR) ▪ DecoderのLearnable Object
Queryを Learnable Anchor Boxesに変更 ▪ DETRでは各Queryが どの位置のどんなサイズの物体を 担当するかが不明瞭だった ▪ 明示的に担当する位置とサイズを 与えることで学習速度と精度が改善
AI 16 DAB-DETR (Dynamic Anchor Box DETR) ▪ Positional embeddingのみの
Attention mapの可視化 ▪ DETRではピークが複数ある ▪ 特定の物体を捉えづらい ▪ DAB-DETRでは物体のサイズ や形状に応じた適応的な Attentionが可能 ▪ DETRに比べて収束が速い
AI 17 DN-DETR ▪ 課題:学習初期のマッチングが不安定 ▪ 学習初期では予測とGTが大きく異なっていることが多いため 同じGTに対してエポックごとに違う予測が割り当てられてしまう ▪ 収束が遅い原因の1つ
▪ Update:ノイズを加えたGT BBoxを入力に加え BBoxの再構成をするようにモデルを学習
AI 18 DN-DETR ▪ Update:ノイズを加えたGT BBoxを入力に加え BBoxの再構成をするようにモデルを学習 ▪ Denoising Part:
ノイズを除去して再構成するように学習 ▪ Matching Part: 通常通りanchorを入力としてBBoxを予測し、 ハンガリアンアルゴリズムによってGTと対応付け Matching Partから noise GT Boxが見えないように + DN Partで別のノイズがかかった 同じGT Boxが見えないように
AI 19 DN-DETR ▪ Denoising Partが何故収束を早めるのか 1. Matching Partよりも簡単なサブタスクを学習させることで 学習初期の不安定さが解消される
2. Noise GT Box =「良いアンカー」とみなせる ▪ 「良いアンカー」からのオフセット学習が効率的に進む 3. Matching Partの各クエリが近くの領域に焦点を当てるように学 習が進む ▪ Noise GT BoxはGT Boxに近いため ▪ ベースモデルの半分ほどのエポックで より良い精度のモデルが学習できる
AI 20 DINO(DETR with Improved deNoising anchOr boxes) ▪ Deformable
DETR+DAB-DETR+DN-DETRをベースに さらに改良 ※教師あり学習のDINOとは異なる 特徴量+PositionをDecoderに 渡していたところを Positionのみを渡すように変更 Denoising Partにおいて 大きいノイズを加えたBoxも入力し それらはNo Objectとして学習
AI 21 DINO(DETR with Improved deNoising anchOr boxes) ▪ 反復的な予測Box
refinementの改良 ▪ Look Forward Twice ▪ 現在の予測のLossが一つ前のBox予測にも誤差伝搬するように 改良
AI 22 DINO(DETR with Improved deNoising anchOr boxes) ▪ 実験結果
▪ 推論精度が大幅に改善
AI 23 03 Real-time DETR
AI 24 ▪ RT-DETR ▪ DETRをリアルタイムで推論できるように改良 ▪ 精度・速度ともにYOLOを超える DETRs Beat
YOLOs on Real-time Object Detection NMSも含めた 実行時間
AI 25 ▪ モデル概要 ▪ DINOをベースにUpdate DETRs Beat YOLOs on
Real-time Object Detection Update1 Update2
AI 26 ▪ Update1: 効率的なエンコーダ ▪ single-scale Transformer encoder (SSE)
▪ スケールごとにAttentionを計算 ▪ multi-scale Transformer encoder (MSE) ▪ 全スケールをconcatしてAttentionを計算 ▪ cross-scale fusion(CSF) ▪ PANet形式で特徴量の統合 →Dの構成をベースに更に改良 DETRs Beat YOLOs on Real-time Object Detection
AI 27 ▪ Update1: 効率的なエンコーダ ▪ Attention-based Intra-scale Feature Interaction
(AIFI) ▪ 高レベル特徴(S5)のみ1層のTransformerエンコーダを適用 ▪ CNN-based Cross-scale Feature Fusion (CCFF) ▪ CNNベースの特徴量統合モジュール DETRs Beat YOLOs on Real-time Object Detection
AI 28 ▪ Update2: オブジェクトクエリ選択方法 ▪ 今までは前景かどうかのconfidenceスコア上位をDecoderの 入力クエリとして使用 ▪ 前景かどうかのスコアだけで判断するのは不十分では?
▪ クラスと位置どちらも考慮して選ぶべき! ▪ 分類スコアとBBoxスコアの差分を不確実性として 不確実性が小さいクエリを選択するように改良 ▪ (実装上はVariFocal Loss(VFL)をクラス分類に用いることで実現) ▪ VFLについてはp40を参照 ▪ APが0.8ポイント改善 DETRs Beat YOLOs on Real-time Object Detection
AI 29 ▪ 実験結果 DETRs Beat YOLOs on Real-time Object
Detection
AI 30 04 最新手法 (CVPR2025)
AI 31 Mr. DETR: Instructive Multi-Route Training for Detection Transformers
▪ one-to-one assignment (o2o) ▪ 1つのGTに対して1つの予測を割り当て(通常のDETRの学習) ▪ メリット:後処理が必要なく、end-to-endに推論可能 ▪ デメリット:初期の学習が進みづらい ▪ one-to-many assignment (o2m) ▪ 1つのGTに対して複数の予測を割り当て(YOLOの学習方法) ▪ メリット:GTに対応付ける予測が多いので学習が進みやすい ▪ デメリット:NMS等の後処理が必要
AI 32 Mr. DETR: Instructive Multi-Route Training for Detection Transformers
▪ one-to-manyをマルチタスクで解かせる ▪ 初期の学習が進みやすくなる ▪ 推論時はo2oのみ使用するため end-to-end予測はこれまで通り可能 ▪ DAC-Detr, H-DETR, Ms-detr などいくつかの手法で提案されている →マルチタスク学習の際のDecoderの構造を再考したMr.DETR
AI 33 Mr. DETR: Instructive Multi-Route Training for Detection Transformers
▪ マルチタスク学習のネットワークアーキテクチャの比較 ▪ すべての要素を共有してマルチタスク学習すると精度が低下する ▪ o2mは正の予測として割り当てられるのに、o2oでは負の予測として 割り当てられる場合にそれぞれの学習が干渉し合うため ▪ SAを分離したルート+FFNを分離したルートの構成が 最も精度が良い
AI 34 Mr. DETR: Instructive Multi-Route Training for Detection Transformers
▪ Mr. DETRのアーキテクチャ ▪ Instructive Self-Attention ▪ SAのパラメータは共有しながら、o2mのルートにのみ学習可能な 指示トークンを入力に追加 ▪ SAを明示的に分離するよりも良い性能
AI 35 Mr. DETR: Instructive Multi-Route Training for Detection Transformers
▪ 実験結果 ▪ ベースのo2oモデルは変更する必要がないため 様々なモデルに適用可能 ▪ 様々なベースモデルで性能改善 様々なベースラインモデルで性能改善 ルートに関するablation study マルチタスク学習のインパクトは大きいが 3ルートにするインパクトは小さめ
AI 36 Mr. DETR: Instructive Multi-Route Training for Detection Transformers
▪ COCO 2017 valデータセットのAP比較 ▪ Swin-Lをbackboneとして用いるモデルでBest score
AI 37 DEIM: DETR with Improved Matching for Fast Convergence
▪ o2mマルチタスク学習の問題点 ▪ 追加のデコーダが必要で計算量が増加 ▪ o2mの学習により、冗長なBoxを生成してしまう可能性 ▪ DEIMでの改良 ▪ Dense o2o matching ▪ VariFocal Loss(VFL)に代わるMatchability-Aware Loss(MAL)
AI 38 DEIM: DETR with Improved Matching for Fast Convergence
▪ Dense o2o matching ▪ 正の予測を増やしたい ▪ 画像内にGTが多く映るようなデータ拡張を適用(シンプル!) ▪ mosaic, mixup ▪ 下図(c)のようにデータ拡張すれば正の予測が4倍になる 黄:GT 赤:positive predictions 緑:negative predictions
AI 39 DEIM: DETR with Improved Matching for Fast Convergence
▪ Dense o2o matching ▪ デコーダーの計算量を増やさずに、学習時間を短縮 ▪ 半分のepochで同等の性能を達成
AI 40 DEIM: DETR with Improved Matching for Fast Convergence
▪ VariFocal Loss(VFL) ▪ 負例(予測BoxとGT BoxのIoUが0)の場合 ▪ Focal Lossと同様 ▪ 正例(予測BoxとGT BoxのIoUが0以上)の場合 ▪ BCE Lossを計算する際に、IoUで重み付け →IoUが高いサンプルを重視して学習
AI 41 DEIM: DETR with Improved Matching for Fast Convergence
▪ VariFocal Loss(VFL) ▪ VFLの欠点 ▪ 下図のような高分類スコア・低IoUの予測BoxはLossが小さいため 改善されづらい ▪ IoU=0のBoxは負の予測扱いなので、正の予測が少なくなり 学習が進みづらい
AI 42 DEIM: DETR with Improved Matching for Fast Convergence
▪ Matchability-Aware Loss(MAL) ▪ 変更点 ▪ 正負のバランスを取るためのハイパラαを削除 ▪ 正例のターゲットラベルをq^γに変更 ▪ IoUが低い場合でもLossが大きくなることで、正例に対する勾配が 強くなり、学習が効果的に進む
AI 43 DEIM: DETR with Improved Matching for Fast Convergence
▪ 実験結果 ▪ 学習効率だけでなく、Real-time Object Detectionにおいて 速度・精度のトレードオフでも優れた性能
AI 44 DEIM: DETR with Improved Matching for Fast Convergence
▪ 実験結果 ▪ ベースモデルから計算量がほとんど変わらないため 実際の学習時間もエポック数に比例して減少
AI 45 ▪ DETRの発展 ▪ NMS不要なEnd-to-end物体検出モデルとして発展 ▪ アーキテクチャ・学習設定を改良して、収束速度・精度・ 推論速度を向上 ▪
リアルタイムでの推論も可能に ▪ 最新手法(CVPR2025) ▪ 主な課題点としてはo2o matchingにおける非効率な学習 ▪ Mr. DETR→o2mマルチタスク学習のアーキテクチャを改善 ▪ DEIM→シンプルなデータ拡張+Lossの修正でo2oの問題に対処 まとめ