Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Gaze-LLE: Gaze Target Estimation via Large-Scal...

Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders

第64回 コンピュータビジョン勉強会@関東(CVPR2025論文読み会)での発表資料です。

Avatar for Kazuyuki Miyazawa

Kazuyuki Miyazawa

August 24, 2025
Tweet

More Decks by Kazuyuki Miyazawa

Other Decks in Technology

Transcript

  1. © GO Drive Inc. Gaze-LLE: Gaze Target Estimation via Large-Scale

    Learned Encoders 2025年8月24日 第64回コンピュータビジョン勉強会@関東 GOドライブ株式会社 宮澤一之
  2. © GO Drive Inc. 2 自己紹介 @kzykmyzw 宮澤 一之 GOドライブ株式会社

    AI技術開発1部 部長 経歴 April 2020 - July 2025 グループマネージャ@GO April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 https://dcai-jp.connpass.com/ https://gihyo.jp/book/2025/978-4-297-14663-4
  3. © GO Drive Inc. 3 概要 • 大規模な視覚基盤モデルを活用した注視 対象推定アルゴリズムを提案 •

    学習済みの視覚基盤モデルを凍結してエ ンコーダとし、注視対象推定に特化した 軽量なデコーダだけを学習 • 従来比1/20程度の少ない学習パラメータ で1.5GPU時間の学習でSoTA性能を達成 • 複数のデータセットにファインチューニ ングなしで汎化 paper code [1]より引用
  4. © GO Drive Inc. 4 視線推定と注視対象推定の違い[2] 視線推定 (gaze estimation) •

    人の視線の方向や角度を求める • 人の頭部画像を入力とし、(3次元)視線ベクトルを出力 • AR/VRやHCIなどへの応用 注視対象推定 (gaze target estimation/detection, gaze following) • 人の視線の先にある注視対象を特定する • 画像と対象人物位置を入力とし、注視対象の座標を出力 • 行動意図推定やロボットナビゲーションなどへの応用 [3]より引用 [4]より引用
  5. © GO Drive Inc. 5 一般的な注視対象推定データセットの内容 • 静止画または動画 ◦ どのデータセットも大体10万枚程度の規模感

    • 画像内の人物位置(顔のバウンディングボックスや左右の目の中心座標など) ◦ 純粋に注視対象推定の性能を評価するため、評価における推論時にも人物位置は真値を用いる • 指定された人物の注視対象の座標 ◦ 注視対象が画像の範囲外にあることを示すフラグが付与される場合もある [5]より引用
  6. © GO Drive Inc. 6 注視対象推定タスクとマルチブランチ手法の提案[6] • MS COCO等の既存データセットから人物が写った画像を選定し、注視対象をアノテーシ ョンしたGazeFollowデータセットを公開

    • 画像全体を使った顕著性マップの推定と、クロップされた頭部画像を使った視線マスクの 推定を異なるブランチで行い、それぞれの出力を統合して注視対象の座標を推定 • 座標推定を画像グリッドの分類問題に帰着させ、グリッドをずらして得られる複数の結果 を統合することでグリッド間隔と座標推定精度のトレードオフを調整 NIPS’15
  7. © GO Drive Inc. 7 マルチモーダルへの拡張[7] • 頭部をクロップした画像から視線を推定し、その結果を画像全体、姿勢、デプスの各モダ リティと連結したうえで特徴を抽出(姿勢とデプスはoff-the-shelfモデルで推論) •

    各モダリティから得られた特徴をアテンションでフュージョンし、最終的に注視対象の位 置を示すヒートマップを予測 • 学習時に任意のモダリティをノイズに置き換え、そのモダリティではアテンションの重み をゼロに近づけるロスを加えることで推論時のモダリティを可変に CVPRW’22 画像 姿勢 デプス
  8. © GO Drive Inc. 8 Transformerの活用[8] CVPR’24 • 複数人の注視対象推定を同時に行うTransformerベースのアーキテクチャを提案 •

    画像全体から生成した画像トークンと、クロップされた頭部画像から生成した視線トーク ンを連結してTransformerエンコーダに入力し、アテンションで相互に作用させる • デコーダは画像トークンを2次元表現に再構成し、各人物から得られた視線トークンで条 件付けしたうえで注視対象を表すヒートマップを人物ごとに生成
  9. © GO Drive Inc. 9 従来手法の課題と本論文の貢献 人間によるアノテーションが必要な小規 模なデータセットで全体を学習している 複数のブランチから得られた特徴をフュ ージョンする機構を注意深く設計する必

    要がありアーキテクチャが複雑化 学習時に複数の目的関数を同時に最適化 するため収束に時間を要する 大規模なデータセットで自己教師あり学 習された視覚基盤モデルを活用 視覚基盤モデルで抽出した単一の特徴か ら、軽量なデコーダと人物固有の位置プ ロンプトで推定を行うシンプルな構成 単純な目的関数と従来比1/20の学習パラ メータ数で1.5GPU時間で学習可能
  10. © GO Drive Inc. 10 視覚基盤モデル -DINOv2 [9]- DINOv2で抽出されたパッチ特徴量を列方向の画像間でPCAして得られた最初の 3つの主成分の可視化結果(教師なし学習であるにも関わらず前景背景分離やパ

    ーツ間のマッチングができている) DINOv2で抽出された特徴量をそのまま利用し、単純な線形層だけを学習してセマンティックセグメンテーションとデプ ス推定を行った結果 • 機械的にキュレーションされた1億4200万枚の画像で最大11億パラメータのViTを学習 • 知識蒸留を使った自己教師あり学習によりラベルなし画像だけで汎用的な特徴表現を獲得 • 様々なダウンストリームタスクにおいてファインチューニングなしで高い性能を発揮
  11. © GO Drive Inc. 11 従来手法のバックボーンを視覚基盤モデルにすればいいのでは? 0.84 0.86 0.88 0.9

    0.92 0.94 Chong et al. [5] Miao et al. [10] Gupta et al. [7] AUC↑ Original Trained DINOv2 Frozen DINOv2 • 従来の注視対象推定手法のバックボーン(ResNetやEfficientNetなど)をDINOv2に置き 換えるだけではバックボーンの再学習の有無にかかわらず性能が低下 • 注視対象推定において視覚基盤モデルの性能を引き出せるデコーダの設計が必要
  12. © GO Drive Inc. 13 シーン特徴の抽出と頭部プロンプティング 𝑥ℱ • 入力画像からDINOv2で抽出した特徴を線形層で次元削減して得られる𝑥ℱ ∈

    ℝ𝑑model×𝐻×𝑊 に対し、対象人物の頭部位置を示す情報を付加する • 頭部位置を示すサイズ𝐻 × 𝑊の二値マスク𝑀と学習可能な位置埋め込み𝑝head ∈ ℝ𝑑modelを 掛け合わせ、 𝑥ℱ に加えることでシーン特徴マップ𝑆を得る 𝑀 𝑆 𝑆 = 𝑥ℱ + 𝑀 ∗ 𝑝head
  13. © GO Drive Inc. 14 特徴量の更新 𝑥ℱ • シーン特徴マップ𝑆を1次元のシーントークン列とし、さらに注視対象が画像の範囲内にあ るかどうかを表すタスクトークンを加える

    • 2次元絶対座標に基づく正弦波位置埋め込みを加算した上でTransformerのエンコーダ層に 通して特徴量を更新する 𝑀 𝑆 𝑡 Τ in out , 𝑠1 , 𝑠2 , ⋯ , 𝑠𝐻×𝑊
  14. © GO Drive Inc. 15 最終出力の生成と目的関数 𝑥ℱ • シーントークンを2次元に再構成し、CNNによって注視対象を示すヒートマップを生成 •

    タスクトークンからMLPによって注視対象が画像の範囲内にあるかどうかを予測 • ヒートマップの画素ごとのクロスエントロピーと範囲内外予測のクロスエントロピーの重 み付き和を最終的な目的関数として学習 𝑀 𝑆
  15. © GO Drive Inc. 17 提案アーキテクチャの妥当性の検証 1. 頭部位置情報の挿入位置 → 特徴抽出後

    • エンコーダによる特徴抽出の前と後で比 較すると、特徴抽出後に挿入した方が性 能が高い • 特徴抽出後に挿入することにより、エン コーダのファインチューニングを不要に できる
  16. © GO Drive Inc. 18 提案アーキテクチャの妥当性の検証 2. デコーダの構成 → Transformer

    • 6層のCNNと、1層のTransformer + 2層 のCNNを比較すると後者の方が性能が高 い(学習パラメータ数は同等) • 人物から注視対象までの距離が長い場合、 数層程度のCNNでは受容野が小さすぎる のではないか
  17. © GO Drive Inc. 19 提案アーキテクチャの妥当性の検証 3. 頭部ブランチの有無 → 無

    • Transformerデコーダでは頭部ブランチ をなくしてもほとんど性能が低下しない • 従来手法では頭部ブランチで視線の向き を認識してきたが、DINOv2のような視覚 基盤モデルから得られる特徴には視線情 報がすでに含まれているはず • が、CNNデコーダでは頭部ブランチをな くすと性能が低下するため、 Transformerのグローバルな情報伝達機 構が重要なのではないか
  18. © GO Drive Inc. 20 性能評価 出力ヒートマップの画素 値を信頼度とするROC曲 線の面積 出力ヒートマップの最大

    値と注視対象の真値との L2距離 注視対象の画像範囲内外 予測のAverage Precision 出力ヒートマップの最大値と 注視対象の真値(~10個)と のL2距離の平均値と最小値 表中の参考文献の番号は本資料のものとは異なります。原論文を参照ください。
  19. © GO Drive Inc. 21 性能評価 出力ヒートマップの画素 値を信頼度とするROC曲 線の面積 出力ヒートマップの最大

    値と注視対象の真値との L2距離 注視対象の画像範囲内外 予測のAverage Precision 出力ヒートマップの最大値と 注視対象の真値(~10個)と のL2距離の平均値と最小値 学習パラメータ数は従来手法 の1/20程度であるにも関わ らずSoTA性能を達成 表中の参考文献の番号は本資料のものとは異なります。原論文を参照ください。
  20. © GO Drive Inc. 22 性能評価 出力ヒートマップの画素 値を信頼度とするROC曲 線の面積 出力ヒートマップの最大

    値と注視対象の真値との L2距離 注視対象の画像範囲内外 予測のAverage Precision 出力ヒートマップの最大値と 注視対象の真値(~10個)と のL2距離の平均値と最小値 NVIDIA RTX4090 1枚を使った1.5時間の 学習でSoTA性能に到達 学習パラメータ数は従来手法 の1/20程度であるにも関わ らずSoTA性能を達成
  21. © GO Drive Inc. 23 性能評価 出力ヒートマップの画素 値を信頼度とするROC曲 線の面積 出力ヒートマップの最大

    値と注視対象の真値との L2距離 注視対象の画像範囲内外 予測のAverage Precision 出力ヒートマップの最大値と 注視対象の真値(~10個)と のL2距離の平均値と最小値 同じバックボーン (ViT-B) で全体を学習する手法より も高性能 表中の参考文献の番号は本資料のものとは異なります。原論文を参照ください。
  22. © GO Drive Inc. 24 汎化性能の評価 • GazeFollowで学習したモデルをファインチューニングなしで異なるデータセット (VideoAttentionTarget、ChildPlay、GOO-Real)に適用 •

    提案手法は従来手法に比べてデータセットが変わることによる性能低下が小さく、依然と してSoTA性能を維持 • 提案手法は汎用的な視覚基盤モデルを凍結して使っていること、学習パラメータ数が小さ く過学習しにくいこと、補助的なモデルを使っていないこと等が要因として考えられる 表中の参考文献の番号は本資料のものとは異なります。原論文を参照ください。
  23. © GO Drive Inc. 25 推論時間の評価 • NVIDIA RTX4090 1枚を使った場合の提案

    手法の推論時間は15ms(約66fps) ◦ 実運用では頭部検出に要する時間が加算されるこ とに注意 • DINOv2による特徴抽出が全体の95% • 画像中の複数人の注視対象を推定する場合 は、デコード処理だけをそれぞれの人に対 して行う(10人処理しても19ms) • 位置埋め込み𝑝head を加算する代わりに頭部 位置をトークンとして扱うことで複数人の デコードを同時に行うことができる(が、 若干性能が低下する)
  24. © GO Drive Inc. 28 まとめ • 注視対象の推定において、学習済みの視覚基盤モデルを最大限に活用することで従来より も大幅に簡潔なアーキテクチャを持つGaze-LLEを提案 •

    これまで主流であった頭部クロップ画像を処理するブランチを廃して特徴抽出を一本化し、 頭部位置をプロンプトとして与える軽量なデコーダで注視対象ヒートマップを生成 • 視覚基盤モデルのナイーブな利用では効果がないことを示し、提案アーキテクチャの妥当 性を複数の観点から定量的に検証 • 従来比1/20程度の少ない学習パラメータ数により、1.5GPU時間の学習でSoTAを達成
  25. © GO Drive Inc. 29 所感 Gaze-LLEのFig.1 [11]のFig.1 • 基盤モデルを使って従来手法よりもアーキテクチャをシンプルにしつつ性能も改善する

    (維持する)というアプローチは色々なタスクで参考にできそう • 単にシンプルにして終わりではなく、その妥当性をしっかりと検証している点も良い • ただ、頭部検出も含めて1本のパイプラインでe2eに注視対象推定を行う論文[11]が CVPR’22で発表されており、それに対する優位性は気になった ◦ Appendixにおいて、特に評価プロトコルが大きく異なることや、提案手法の方が高性能なことは示されてい るが、本文の方でしっかり説明した方がいい気が
  26. © GO Drive Inc. 30 参考文献 [1] https://github.com/fkryan/gazelle [2] F.

    Tonini et al., “Object-aware gaze target detection,” ICCV, 2023. [3] https://www.isus.jp/wp-content/uploads/openvino/2024/docs/omz_models_model_gaze_estimation_adas_0002.html [4] http://gazefollow.csail.mit.edu/explore.html [5] E. Chong et al., ”Detecting attended visual targets in video,” CVPR, 2020. [6] A. Recasens et al., ”Where are they looking?,” NIPS, 2015. [7] A. Gupta et al., “A modular multimodal architecture for gaze target prediction: Application to privacy-sensitive settings,” CVPR Workshops, 2022. [8] S. Tafasca et al., “Sharingan: A Transformer architecture for multi-person gaze following,” CVPR, 2024. [9] M. Oquab et al., “DINOv2: Learning robust visual features without supervision,” arXiv:2304.07193, 2023. [10] Q. Miao et al., “Patch-level gaze distribution prediction for gaze following,” WACV, 2023. [11] D. Tu et al., “End-to-end human-gaze-target detection with Transformers,” CVPR, 2022.
  27. © GO Drive Inc. 32 他の視覚基盤モデルとの比較 表中の参考文献の番号は本資料のものとは異なります。原論文を参照ください。 ImageNet-1k(128万枚)で学習 数億枚の独自データセットで学習 •

    エンコーダはDINOv2でもCLIPでも大きな性能差はない ◦ 両者の学習方法の違い(自己教師あり学習 vs 画像-テキスト対照学習)は重要ではない • ImageNet-1kで学習したモデルを使うと性能が落ちることから、数億枚レベルの超大規模 なデータセットでのpretrainが重要?