DETR手法の変遷と最新動向（CVPR2025）

AI 2025.3.21 Takato Yoshikawa 株式会社ディー・エヌ・エー＋ GO株式会社 DETR手法の変遷と最新動向（CVPR2025）

AI 2 ▪ End-to-end Object Detection ▪ End-to-end people detection
in crowded scenes [Stewart+, CVPR2016] ▪ End-to-end object detection with Transformers(DETR) [Carion+, ECCV2020] ▪ アーキテクチャ・学習方法の改良 ▪ Deformable DETR: Deformable Transformers for End-to-End Object Detection [Zhu+, ICLR2021] ▪ DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR [Liu+, ICLR2022] ▪ DN-DETR: Accelerate DETR Training by Introducing Query DeNoising [Li+, CVPR2022] ▪ DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection [Zhang+, ICLR2023] ▪ Real-time Object Detection ▪ DETRs Beat YOLOs on Real-time Object Detection [Zhao, CVPR2024] ▪ 最新手法 ▪ Mr. DETR: Instructive Multi-Route Training for Detection Transformers [Zhang+, CVPR2025] ▪ DEIM: DETR with Improved Matching for Fast Convergence [Huang+, CVPR2025] 紹介論文

AI 3 01 End-to-end Object Detection

AI 4 ▪ End-to-end Object Detectionの原型 1. CNNで特徴抽出 2. 特徴ベクトルをLSTMに入力し、conﬁdenceが高い順にBBox出力
▪ 64x64の範囲に対するBBoxを出力 ▪ conﬁdenceがしきい値を下回ったらstop 3. すでに予測したBBoxと被っているBBoxは後処理で削除 ▪ (End-to-end?) End-to-end people detection in crowded scenes

AI 5 ▪ Loss Function ▪ 予測BoxとGTを1対1でマッチング ▪ ハンガリアンアルゴリズム ▪
左から順に優先度を高くマッチング ▪ G=マッチしたBBox, C=予測BBoxで以下を計算 →1つのGT Boxに対して1つの予測をするように学習するため最終的なBoxを絞り込む後処理が必要なくなる！（のでend-to-endの推論が可能） End-to-end people detection in crowded scenes コスト =(候補BBox中心がGT Box内にあるか, 出力順番, 2つのBoxのL1距離） BoxのL1 Loss マッチしたかどうかのcross entropy loss

AI 6 ▪ RNN部分をTransformerに変更 ▪ Decoderは自己回帰ではなく、1回のforwardで推論 ▪ Learnable embedding（object queries）を入力とする
▪ 大きいオブジェクトで優れた性能 ▪ 一方で、小さいオブジェクトが苦手 DETR: End-to-end object detection with Transformers

AI 7 ▪ Loss Function ▪ BBox Lossの変更 ▪ L1
LossだとBoxの大きさでスケールが異なる →Generalized IoU Lossに変更 ▪ クラス分類のcross entropy loss + BBox Loss DETR: End-to-end object detection with Transformers より詳しいDETRの日本語解説記事： https://qiita.com/DeepTama/items/937e13f6beda79be17d8

AI 8 02 アーキテクチャ・学習方法の改良

AI 9 紹介する手法 https://arxiv.org/abs/2306.04670

AI 10 ▪ DETRの課題点 1. 小さな物体の検出性能が低い 2. 収束に時間がかかる ▪ Faster
R-CNNの10~20倍 ▪ Update 1. マルチスケール特徴を使用 →高解像度特徴を使用することで小さい物体の検出精度を上げる 2. 計算・メモリ効率の高いDeformable Attentionを提案 ▪ Deformable Convolutionを参考に →マルチスケール特徴を効率的に処理しながら、収束時間を短縮 Deformable DETR

AI 11 ▪ Deformable Attention Module ▪ 各queryに対して一部の画素のみでAttentionを計算 ▪ value特徴の座標はsampling
oﬀsetによって決まる Deformable DETR ※Attention Weightはqueryのみから算出別のスケールの特徴に対するAttentionも計算

AI 12 ▪ Deformable Attention Module ▪ 近傍の特徴に対するAttentionのみを計算する ▪ Object
Detectionでは近傍の画素が重要になりやすいという前提をモデルに反映し、効率的なAttention計算に Deformable DETR 推論時のサンプリングポイントとAttention weight

AI 13 ▪ その他Update ▪ 反復的に予測BBoxを改善 ▪ 各Decoder layerでxywhの差分を出力 ▪
前の出力に足し合わせて、反復的にreﬁne ▪ Two-Stage Deformable DETR ▪ Encoderの出力特徴マップそれぞれに対して BBox回帰ヘッドと前景/背景分類ヘッドでBBoxを予測 ▪ 前景スコアが高いBBoxを反復的reﬁneの初期値として使い、その座標の特徴量+PEをDecoderのInputとする Deformable DETR 図：https://arxiv.org/abs/2010.04159

AI 14 ▪ 実験結果 ▪ 学習時間が大幅に減少しながら、精度も改善 Deformable DETR

AI 15 DAB-DETR (Dynamic Anchor Box DETR) ▪ DecoderのLearnable Object
Queryを Learnable Anchor Boxesに変更 ▪ DETRでは各Queryがどの位置のどんなサイズの物体を担当するかが不明瞭だった ▪ 明示的に担当する位置とサイズを与えることで学習速度と精度が改善

AI 16 DAB-DETR (Dynamic Anchor Box DETR) ▪ Positional embeddingのみの
Attention mapの可視化 ▪ DETRではピークが複数ある ▪ 特定の物体を捉えづらい ▪ DAB-DETRでは物体のサイズや形状に応じた適応的な Attentionが可能 ▪ DETRに比べて収束が速い

AI 17 DN-DETR ▪ 課題：学習初期のマッチングが不安定 ▪ 学習初期では予測とGTが大きく異なっていることが多いため同じGTに対してエポックごとに違う予測が割り当てられてしまう ▪ 収束が遅い原因の１つ
▪ Update：ノイズを加えたGT BBoxを入力に加え BBoxの再構成をするようにモデルを学習

AI 18 DN-DETR ▪ Update：ノイズを加えたGT BBoxを入力に加え BBoxの再構成をするようにモデルを学習 ▪ Denoising Part:
ノイズを除去して再構成するように学習 ▪ Matching Part: 通常通りanchorを入力としてBBoxを予測し、ハンガリアンアルゴリズムによってGTと対応付け Matching Partから noise GT Boxが見えないように＋ DN Partで別のノイズがかかった同じGT Boxが見えないように

AI 19 DN-DETR ▪ Denoising Partが何故収束を早めるのか 1. Matching Partよりも簡単なサブタスクを学習させることで学習初期の不安定さが解消される
2. Noise GT Box =「良いアンカー」とみなせる ▪ 「良いアンカー」からのオフセット学習が効率的に進む 3. Matching Partの各クエリが近くの領域に焦点を当てるように学習が進む ▪ Noise GT BoxはGT Boxに近いため ▪ ベースモデルの半分ほどのエポックでより良い精度のモデルが学習できる

AI 20 DINO(DETR with Improved deNoising anchOr boxes) ▪ Deformable
DETR+DAB-DETR+DN-DETRをベースにさらに改良 ※教師あり学習のDINOとは異なる特徴量＋PositionをDecoderに渡していたところを Positionのみを渡すように変更 Denoising Partにおいて大きいノイズを加えたBoxも入力しそれらはNo Objectとして学習

AI 21 DINO(DETR with Improved deNoising anchOr boxes) ▪ 反復的な予測Box
reﬁnementの改良 ▪ Look Forward Twice ▪ 現在の予測のLossが一つ前のBox予測にも誤差伝搬するように改良

AI 22 DINO(DETR with Improved deNoising anchOr boxes) ▪ 実験結果
▪ 推論精度が大幅に改善

AI 23 03 Real-time DETR

AI 24 ▪ RT-DETR ▪ DETRをリアルタイムで推論できるように改良 ▪ 精度・速度ともにYOLOを超える DETRs Beat
YOLOs on Real-time Object Detection NMSも含めた実行時間

AI 25 ▪ モデル概要 ▪ DINOをベースにUpdate DETRs Beat YOLOs on
Real-time Object Detection Update１ Update2

AI 26 ▪ Update1: 効率的なエンコーダ ▪ single-scale Transformer encoder (SSE)
▪ スケールごとにAttentionを計算 ▪ multi-scale Transformer encoder (MSE) ▪ 全スケールをconcatしてAttentionを計算 ▪ cross-scale fusion（CSF） ▪ PANet形式で特徴量の統合 →Dの構成をベースに更に改良 DETRs Beat YOLOs on Real-time Object Detection

AI 27 ▪ Update1: 効率的なエンコーダ ▪ Attention-based Intra-scale Feature Interaction
(AIFI) ▪ 高レベル特徴（S5）のみ1層のTransformerエンコーダを適用 ▪ CNN-based Cross-scale Feature Fusion (CCFF) ▪ CNNベースの特徴量統合モジュール DETRs Beat YOLOs on Real-time Object Detection

AI 28 ▪ Update2: オブジェクトクエリ選択方法 ▪ 今までは前景かどうかのconﬁdenceスコア上位をDecoderの入力クエリとして使用 ▪ 前景かどうかのスコアだけで判断するのは不十分では？
▪ クラスと位置どちらも考慮して選ぶべき！ ▪ 分類スコアとBBoxスコアの差分を不確実性として不確実性が小さいクエリを選択するように改良 ▪ （実装上はVariFocal Loss（VFL）をクラス分類に用いることで実現） ▪ VFLについてはp40を参照 ▪ APが0.8ポイント改善 DETRs Beat YOLOs on Real-time Object Detection

AI 29 ▪ 実験結果 DETRs Beat YOLOs on Real-time Object
Detection

AI 30 04 最新手法 (CVPR2025)

AI 31 Mr. DETR: Instructive Multi-Route Training for Detection Transformers
▪ one-to-one assignment (o2o) ▪ 1つのGTに対して1つの予測を割り当て（通常のDETRの学習） ▪ メリット：後処理が必要なく、end-to-endに推論可能 ▪ デメリット：初期の学習が進みづらい ▪ one-to-many assignment (o2m) ▪ 1つのGTに対して複数の予測を割り当て（YOLOの学習方法） ▪ メリット：GTに対応付ける予測が多いので学習が進みやすい ▪ デメリット：NMS等の後処理が必要

▪ one-to-manyをマルチタスクで解かせる ▪ 初期の学習が進みやすくなる ▪ 推論時はo2oのみ使用するため end-to-end予測はこれまで通り可能 ▪ DAC-Detr, H-DETR, Ms-detr などいくつかの手法で提案されている　→マルチタスク学習の際のDecoderの構造を再考したMr.DETR

▪ マルチタスク学習のネットワークアーキテクチャの比較 ▪ すべての要素を共有してマルチタスク学習すると精度が低下する ▪ o2mは正の予測として割り当てられるのに、o2oでは負の予測として割り当てられる場合にそれぞれの学習が干渉し合うため ▪ SAを分離したルート＋FFNを分離したルートの構成が最も精度が良い

▪ Mr. DETRのアーキテクチャ ▪ Instructive Self-Attention ▪ SAのパラメータは共有しながら、o2mのルートにのみ学習可能な指示トークンを入力に追加 ▪ SAを明示的に分離するよりも良い性能

▪ 実験結果 ▪ ベースのo2oモデルは変更する必要がないため様々なモデルに適用可能 ▪ 様々なベースモデルで性能改善様々なベースラインモデルで性能改善ルートに関するablation study マルチタスク学習のインパクトは大きいが 3ルートにするインパクトは小さめ

▪ COCO 2017 valデータセットのAP比較 ▪ Swin-Lをbackboneとして用いるモデルでBest score

AI 37 DEIM: DETR with Improved Matching for Fast Convergence
▪ o2mマルチタスク学習の問題点 ▪ 追加のデコーダが必要で計算量が増加 ▪ o2mの学習により、冗長なBoxを生成してしまう可能性 ▪ DEIMでの改良 ▪ Dense o2o matching ▪ VariFocal Loss（VFL）に代わるMatchability-Aware Loss（MAL)

▪ Dense o2o matching ▪ 正の予測を増やしたい ▪ 画像内にGTが多く映るようなデータ拡張を適用（シンプル！） ▪ mosaic, mixup ▪ 下図(c)のようにデータ拡張すれば正の予測が4倍になる黄：GT　赤：positive predictions　緑：negative predictions

▪ Dense o2o matching ▪ デコーダーの計算量を増やさずに、学習時間を短縮 ▪ 半分のepochで同等の性能を達成

▪ VariFocal Loss（VFL） ▪ 負例（予測BoxとGT BoxのIoUが0）の場合 ▪ Focal Lossと同様 ▪ 正例（予測BoxとGT BoxのIoUが0以上）の場合 ▪ BCE Lossを計算する際に、IoUで重み付け →IoUが高いサンプルを重視して学習

▪ VariFocal Loss（VFL） ▪ VFLの欠点 ▪ 下図のような高分類スコア・低IoUの予測BoxはLossが小さいため改善されづらい ▪ IoU=0のBoxは負の予測扱いなので、正の予測が少なくなり学習が進みづらい

▪ Matchability-Aware Loss（MAL) ▪ 変更点 ▪ 正負のバランスを取るためのハイパラαを削除 ▪ 正例のターゲットラベルをq^γに変更 ▪ IoUが低い場合でもLossが大きくなることで、正例に対する勾配が強くなり、学習が効果的に進む

▪ 実験結果 ▪ 学習効率だけでなく、Real-time Object Detectionにおいて速度・精度のトレードオフでも優れた性能

▪ 実験結果 ▪ ベースモデルから計算量がほとんど変わらないため実際の学習時間もエポック数に比例して減少

AI 45 ▪ DETRの発展 ▪ NMS不要なEnd-to-end物体検出モデルとして発展 ▪ アーキテクチャ・学習設定を改良して、収束速度・精度・推論速度を向上 ▪
リアルタイムでの推論も可能に ▪ 最新手法（CVPR2025） ▪ 主な課題点としてはo2o matchingにおける非効率な学習 ▪ Mr. DETR→o2mマルチタスク学習のアーキテクチャを改善 ▪ DEIM→シンプルなデータ拡張＋Lossの修正でo2oの問題に対処まとめ

DETR手法の変遷と最新動向（CVPR2025）

DETR手法の変遷と最新動向（CVPR2025）

More Decks by TakatoYoshikawa

Other Decks in Technology

Featured

Transcript