Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DETR手法の変遷と最新動向(CVPR2025)

 DETR手法の変遷と最新動向(CVPR2025)

DeNA/Go CV輪講の発表時の資料です。
DETRの発展の大まかな流れとCVPR2025採択手法(Mr. DETR, DEIM)についてまとめました。

TakatoYoshikawa

April 16, 2025
Tweet

More Decks by TakatoYoshikawa

Other Decks in Technology

Transcript

  1. AI 2 ▪ End-to-end Object Detection ▪ End-to-end people detection

    in crowded scenes [Stewart+, CVPR2016] ▪ End-to-end object detection with Transformers(DETR) [Carion+, ECCV2020] ▪ アーキテクチャ・学習方法の改良 ▪ Deformable DETR: Deformable Transformers for End-to-End Object Detection [Zhu+, ICLR2021] ▪ DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR [Liu+, ICLR2022] ▪ DN-DETR: Accelerate DETR Training by Introducing Query DeNoising [Li+, CVPR2022] ▪ DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection [Zhang+, ICLR2023] ▪ Real-time Object Detection ▪ DETRs Beat YOLOs on Real-time Object Detection [Zhao, CVPR2024] ▪ 最新手法 ▪ Mr. DETR: Instructive Multi-Route Training for Detection Transformers [Zhang+, CVPR2025] ▪ DEIM: DETR with Improved Matching for Fast Convergence [Huang+, CVPR2025] 紹介論文
  2. AI 4 ▪ End-to-end Object Detectionの原型 1. CNNで特徴抽出 2. 特徴ベクトルをLSTMに入力し、confidenceが高い順にBBox出力

    ▪ 64x64の範囲に対するBBoxを出力 ▪ confidenceがしきい値を下回ったらstop 3. すでに予測したBBoxと被っているBBoxは後処理で削除 ▪ (End-to-end?) End-to-end people detection in crowded scenes
  3. AI 5 ▪ Loss Function ▪ 予測BoxとGTを1対1でマッチング ▪ ハンガリアンアルゴリズム ▪

    左から順に優先度を高くマッチング ▪ G=マッチしたBBox, C=予測BBoxで以下を計算 →1つのGT Boxに対して1つの予測をするように学習するため 最終的なBoxを絞り込む後処理が必要なくなる!(のでend-to-endの推論が可能) End-to-end people detection in crowded scenes コスト =(候補BBox中心がGT Box内にあるか, 出力順番, 2つのBoxのL1距離) BoxのL1 Loss マッチしたかどうかのcross entropy loss
  4. AI 6 ▪ RNN部分をTransformerに変更 ▪ Decoderは自己回帰ではなく、1回のforwardで推論 ▪ Learnable embedding(object queries)を入力とする

    ▪ 大きいオブジェクトで優れた性能 ▪ 一方で、小さいオブジェクトが苦手 DETR: End-to-end object detection with Transformers
  5. AI 7 ▪ Loss Function ▪ BBox Lossの変更 ▪ L1

    LossだとBoxの大きさでスケールが異なる →Generalized IoU Lossに変更 ▪ クラス分類のcross entropy loss + BBox Loss DETR: End-to-end object detection with Transformers より詳しいDETRの日本語解説記事: https://qiita.com/DeepTama/items/937e13f6beda79be17d8
  6. AI 10 ▪ DETRの課題点 1. 小さな物体の検出性能が低い 2. 収束に時間がかかる ▪ Faster

    R-CNNの10~20倍 ▪ Update 1. マルチスケール特徴を使用 →高解像度特徴を使用することで小さい物体の検出精度を上げる 2. 計算・メモリ効率の高いDeformable Attentionを提案 ▪ Deformable Convolutionを参考に →マルチスケール特徴を効率的に処理しながら、収束時間を短縮 Deformable DETR
  7. AI 11 ▪ Deformable Attention Module ▪ 各queryに対して一部の画素のみでAttentionを計算 ▪ value特徴の座標はsampling

    offsetによって決まる Deformable DETR ※Attention Weightはqueryのみから算出 別のスケールの特徴に対するAttentionも計算
  8. AI 12 ▪ Deformable Attention Module ▪ 近傍の特徴に対するAttentionのみを計算する ▪ Object

    Detectionでは近傍の画素が重要になりやすいという前提を モデルに反映し、効率的なAttention計算に Deformable DETR 推論時のサンプリングポイントとAttention weight
  9. AI 13 ▪ その他Update ▪ 反復的に予測BBoxを改善 ▪ 各Decoder layerでxywhの差分を出力 ▪

    前の出力に足し合わせて、反復的にrefine ▪ Two-Stage Deformable DETR ▪ Encoderの出力特徴マップそれぞれに対して BBox回帰ヘッドと前景/背景分類ヘッドでBBoxを予測 ▪ 前景スコアが高いBBoxを反復的refineの初期値として 使い、その座標の特徴量+PEをDecoderのInputとする Deformable DETR 図:https://arxiv.org/abs/2010.04159
  10. AI 15 DAB-DETR (Dynamic Anchor Box DETR) ▪ DecoderのLearnable Object

    Queryを Learnable Anchor Boxesに変更 ▪ DETRでは各Queryが どの位置のどんなサイズの物体を 担当するかが不明瞭だった ▪ 明示的に担当する位置とサイズを 与えることで学習速度と精度が改善
  11. AI 16 DAB-DETR (Dynamic Anchor Box DETR) ▪ Positional embeddingのみの

    Attention mapの可視化 ▪ DETRではピークが複数ある ▪ 特定の物体を捉えづらい ▪ DAB-DETRでは物体のサイズ や形状に応じた適応的な Attentionが可能 ▪ DETRに比べて収束が速い
  12. AI 18 DN-DETR ▪ Update:ノイズを加えたGT BBoxを入力に加え BBoxの再構成をするようにモデルを学習 ▪ Denoising Part:

    ノイズを除去して再構成するように学習 ▪ Matching Part: 通常通りanchorを入力としてBBoxを予測し、 ハンガリアンアルゴリズムによってGTと対応付け Matching Partから noise GT Boxが見えないように + DN Partで別のノイズがかかった 同じGT Boxが見えないように
  13. AI 19 DN-DETR ▪ Denoising Partが何故収束を早めるのか 1. Matching Partよりも簡単なサブタスクを学習させることで 学習初期の不安定さが解消される

    2. Noise GT Box =「良いアンカー」とみなせる ▪ 「良いアンカー」からのオフセット学習が効率的に進む 3. Matching Partの各クエリが近くの領域に焦点を当てるように学 習が進む ▪ Noise GT BoxはGT Boxに近いため ▪ ベースモデルの半分ほどのエポックで より良い精度のモデルが学習できる
  14. AI 20 DINO(DETR with Improved deNoising anchOr boxes) ▪ Deformable

    DETR+DAB-DETR+DN-DETRをベースに さらに改良 ※教師あり学習のDINOとは異なる 特徴量+PositionをDecoderに 渡していたところを Positionのみを渡すように変更 Denoising Partにおいて 大きいノイズを加えたBoxも入力し それらはNo Objectとして学習
  15. AI 21 DINO(DETR with Improved deNoising anchOr boxes) ▪ 反復的な予測Box

    refinementの改良 ▪ Look Forward Twice ▪ 現在の予測のLossが一つ前のBox予測にも誤差伝搬するように 改良
  16. AI 26 ▪ Update1: 効率的なエンコーダ ▪ single-scale Transformer encoder (SSE)

    ▪ スケールごとにAttentionを計算 ▪ multi-scale Transformer encoder (MSE) ▪ 全スケールをconcatしてAttentionを計算 ▪ cross-scale fusion(CSF) ▪ PANet形式で特徴量の統合 →Dの構成をベースに更に改良 DETRs Beat YOLOs on Real-time Object Detection
  17. AI 27 ▪ Update1: 効率的なエンコーダ ▪ Attention-based Intra-scale Feature Interaction

    (AIFI) ▪ 高レベル特徴(S5)のみ1層のTransformerエンコーダを適用 ▪ CNN-based Cross-scale Feature Fusion (CCFF) ▪ CNNベースの特徴量統合モジュール DETRs Beat YOLOs on Real-time Object Detection
  18. AI 28 ▪ Update2: オブジェクトクエリ選択方法 ▪ 今までは前景かどうかのconfidenceスコア上位をDecoderの 入力クエリとして使用 ▪ 前景かどうかのスコアだけで判断するのは不十分では?

    ▪ クラスと位置どちらも考慮して選ぶべき! ▪ 分類スコアとBBoxスコアの差分を不確実性として 不確実性が小さいクエリを選択するように改良 ▪ (実装上はVariFocal Loss(VFL)をクラス分類に用いることで実現) ▪ VFLについてはp40を参照 ▪ APが0.8ポイント改善 DETRs Beat YOLOs on Real-time Object Detection
  19. AI 31 Mr. DETR: Instructive Multi-Route Training for Detection Transformers

    ▪ one-to-one assignment (o2o) ▪ 1つのGTに対して1つの予測を割り当て(通常のDETRの学習) ▪ メリット:後処理が必要なく、end-to-endに推論可能 ▪ デメリット:初期の学習が進みづらい ▪ one-to-many assignment (o2m) ▪ 1つのGTに対して複数の予測を割り当て(YOLOの学習方法) ▪ メリット:GTに対応付ける予測が多いので学習が進みやすい ▪ デメリット:NMS等の後処理が必要
  20. AI 32 Mr. DETR: Instructive Multi-Route Training for Detection Transformers

    ▪ one-to-manyをマルチタスクで解かせる ▪ 初期の学習が進みやすくなる ▪ 推論時はo2oのみ使用するため end-to-end予測はこれまで通り可能 ▪ DAC-Detr, H-DETR, Ms-detr などいくつかの手法で提案されている  →マルチタスク学習の際のDecoderの構造を再考したMr.DETR
  21. AI 33 Mr. DETR: Instructive Multi-Route Training for Detection Transformers

    ▪ マルチタスク学習のネットワークアーキテクチャの比較 ▪ すべての要素を共有してマルチタスク学習すると精度が低下する ▪ o2mは正の予測として割り当てられるのに、o2oでは負の予測として 割り当てられる場合にそれぞれの学習が干渉し合うため ▪ SAを分離したルート+FFNを分離したルートの構成が 最も精度が良い
  22. AI 34 Mr. DETR: Instructive Multi-Route Training for Detection Transformers

    ▪ Mr. DETRのアーキテクチャ ▪ Instructive Self-Attention ▪ SAのパラメータは共有しながら、o2mのルートにのみ学習可能な 指示トークンを入力に追加 ▪ SAを明示的に分離するよりも良い性能
  23. AI 35 Mr. DETR: Instructive Multi-Route Training for Detection Transformers

    ▪ 実験結果 ▪ ベースのo2oモデルは変更する必要がないため 様々なモデルに適用可能 ▪ 様々なベースモデルで性能改善 様々なベースラインモデルで性能改善 ルートに関するablation study マルチタスク学習のインパクトは大きいが 3ルートにするインパクトは小さめ
  24. AI 36 Mr. DETR: Instructive Multi-Route Training for Detection Transformers

    ▪ COCO 2017 valデータセットのAP比較 ▪ Swin-Lをbackboneとして用いるモデルでBest score
  25. AI 37 DEIM: DETR with Improved Matching for Fast Convergence

    ▪ o2mマルチタスク学習の問題点 ▪ 追加のデコーダが必要で計算量が増加 ▪ o2mの学習により、冗長なBoxを生成してしまう可能性 ▪ DEIMでの改良 ▪ Dense o2o matching ▪ VariFocal Loss(VFL)に代わるMatchability-Aware Loss(MAL)
  26. AI 38 DEIM: DETR with Improved Matching for Fast Convergence

    ▪ Dense o2o matching ▪ 正の予測を増やしたい ▪ 画像内にGTが多く映るようなデータ拡張を適用(シンプル!) ▪ mosaic, mixup ▪ 下図(c)のようにデータ拡張すれば正の予測が4倍になる 黄:GT 赤:positive predictions 緑:negative predictions
  27. AI 39 DEIM: DETR with Improved Matching for Fast Convergence

    ▪ Dense o2o matching ▪ デコーダーの計算量を増やさずに、学習時間を短縮 ▪ 半分のepochで同等の性能を達成
  28. AI 40 DEIM: DETR with Improved Matching for Fast Convergence

    ▪ VariFocal Loss(VFL) ▪ 負例(予測BoxとGT BoxのIoUが0)の場合 ▪ Focal Lossと同様 ▪ 正例(予測BoxとGT BoxのIoUが0以上)の場合 ▪ BCE Lossを計算する際に、IoUで重み付け →IoUが高いサンプルを重視して学習
  29. AI 41 DEIM: DETR with Improved Matching for Fast Convergence

    ▪ VariFocal Loss(VFL) ▪ VFLの欠点 ▪ 下図のような高分類スコア・低IoUの予測BoxはLossが小さいため 改善されづらい ▪ IoU=0のBoxは負の予測扱いなので、正の予測が少なくなり 学習が進みづらい
  30. AI 42 DEIM: DETR with Improved Matching for Fast Convergence

    ▪ Matchability-Aware Loss(MAL) ▪ 変更点 ▪ 正負のバランスを取るためのハイパラαを削除 ▪ 正例のターゲットラベルをq^γに変更 ▪ IoUが低い場合でもLossが大きくなることで、正例に対する勾配が 強くなり、学習が効果的に進む
  31. AI 43 DEIM: DETR with Improved Matching for Fast Convergence

    ▪ 実験結果 ▪ 学習効率だけでなく、Real-time Object Detectionにおいて 速度・精度のトレードオフでも優れた性能
  32. AI 44 DEIM: DETR with Improved Matching for Fast Convergence

    ▪ 実験結果 ▪ ベースモデルから計算量がほとんど変わらないため 実際の学習時間もエポック数に比例して減少
  33. AI 45 ▪ DETRの発展 ▪ NMS不要なEnd-to-end物体検出モデルとして発展 ▪ アーキテクチャ・学習設定を改良して、収束速度・精度・ 推論速度を向上 ▪

    リアルタイムでの推論も可能に ▪ 最新手法(CVPR2025) ▪ 主な課題点としてはo2o matchingにおける非効率な学習 ▪ Mr. DETR→o2mマルチタスク学習のアーキテクチャを改善 ▪ DEIM→シンプルなデータ拡張+Lossの修正でo2oの問題に対処 まとめ