Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders

© GO Drive Inc. Gaze-LLE: Gaze Target Estimation via Large-Scale
Learned Encoders 2025年8月24日第64回コンピュータビジョン勉強会＠関東 GOドライブ株式会社宮澤一之

© GO Drive Inc. 2 自己紹介 @kzykmyzw 宮澤一之 GOドライブ株式会社
AI技術開発1部部長経歴 April 2020 - July 2025 グループマネージャ@GO April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 https://dcai-jp.connpass.com/ https://gihyo.jp/book/2025/978-4-297-14663-4

© GO Drive Inc. 3 概要 • 大規模な視覚基盤モデルを活用した注視対象推定アルゴリズムを提案 •
学習済みの視覚基盤モデルを凍結してエンコーダとし、注視対象推定に特化した軽量なデコーダだけを学習 • 従来比1/20程度の少ない学習パラメータで1.5GPU時間の学習でSoTA性能を達成 • 複数のデータセットにファインチューニングなしで汎化 paper code [1]より引用

© GO Drive Inc. 4 視線推定と注視対象推定の違い[2] 視線推定 (gaze estimation) •
人の視線の方向や角度を求める • 人の頭部画像を入力とし、（3次元）視線ベクトルを出力 • AR/VRやHCIなどへの応用注視対象推定 (gaze target estimation/detection, gaze following) • 人の視線の先にある注視対象を特定する • 画像と対象人物位置を入力とし、注視対象の座標を出力 • 行動意図推定やロボットナビゲーションなどへの応用 [3]より引用 [4]より引用

© GO Drive Inc. 5 一般的な注視対象推定データセットの内容 • 静止画または動画 ◦ どのデータセットも大体10万枚程度の規模感
• 画像内の人物位置（顔のバウンディングボックスや左右の目の中心座標など） ◦ 純粋に注視対象推定の性能を評価するため、評価における推論時にも人物位置は真値を用いる • 指定された人物の注視対象の座標 ◦ 注視対象が画像の範囲外にあることを示すフラグが付与される場合もある [5]より引用

© GO Drive Inc. 6 注視対象推定タスクとマルチブランチ手法の提案[6] • MS COCO等の既存データセットから人物が写った画像を選定し、注視対象をアノテーションしたGazeFollowデータセットを公開
• 画像全体を使った顕著性マップの推定と、クロップされた頭部画像を使った視線マスクの推定を異なるブランチで行い、それぞれの出力を統合して注視対象の座標を推定 • 座標推定を画像グリッドの分類問題に帰着させ、グリッドをずらして得られる複数の結果を統合することでグリッド間隔と座標推定精度のトレードオフを調整 NIPS’15

© GO Drive Inc. 7 マルチモーダルへの拡張[7] • 頭部をクロップした画像から視線を推定し、その結果を画像全体、姿勢、デプスの各モダリティと連結したうえで特徴を抽出（姿勢とデプスはoff-the-shelfモデルで推論） •
各モダリティから得られた特徴をアテンションでフュージョンし、最終的に注視対象の位置を示すヒートマップを予測 • 学習時に任意のモダリティをノイズに置き換え、そのモダリティではアテンションの重みをゼロに近づけるロスを加えることで推論時のモダリティを可変に CVPRW’22 画像姿勢デプス

© GO Drive Inc. 8 Transformerの活用[8] CVPR’24 • 複数人の注視対象推定を同時に行うTransformerベースのアーキテクチャを提案 •
画像全体から生成した画像トークンと、クロップされた頭部画像から生成した視線トークンを連結してTransformerエンコーダに入力し、アテンションで相互に作用させる • デコーダは画像トークンを2次元表現に再構成し、各人物から得られた視線トークンで条件付けしたうえで注視対象を表すヒートマップを人物ごとに生成

© GO Drive Inc. 9 従来手法の課題と本論文の貢献人間によるアノテーションが必要な小規模なデータセットで全体を学習している複数のブランチから得られた特徴をフュージョンする機構を注意深く設計する必
要がありアーキテクチャが複雑化学習時に複数の目的関数を同時に最適化するため収束に時間を要する大規模なデータセットで自己教師あり学習された視覚基盤モデルを活用視覚基盤モデルで抽出した単一の特徴から、軽量なデコーダと人物固有の位置プロンプトで推定を行うシンプルな構成単純な目的関数と従来比1/20の学習パラメータ数で1.5GPU時間で学習可能

© GO Drive Inc. 10 視覚基盤モデル -DINOv2 [9]- DINOv2で抽出されたパッチ特徴量を列方向の画像間でPCAして得られた最初の 3つの主成分の可視化結果（教師なし学習であるにも関わらず前景背景分離やパ
ーツ間のマッチングができている） DINOv2で抽出された特徴量をそのまま利用し、単純な線形層だけを学習してセマンティックセグメンテーションとデプス推定を行った結果 • 機械的にキュレーションされた1億4200万枚の画像で最大11億パラメータのViTを学習 • 知識蒸留を使った自己教師あり学習によりラベルなし画像だけで汎用的な特徴表現を獲得 • 様々なダウンストリームタスクにおいてファインチューニングなしで高い性能を発揮

© GO Drive Inc. 11 従来手法のバックボーンを視覚基盤モデルにすればいいのでは？ 0.84 0.86 0.88 0.9
0.92 0.94 Chong et al. [5] Miao et al. [10] Gupta et al. [7] AUC↑ Original Trained DINOv2 Frozen DINOv2 • 従来の注視対象推定手法のバックボーン（ResNetやEfficientNetなど）をDINOv2に置き換えるだけではバックボーンの再学習の有無にかかわらず性能が低下 • 注視対象推定において視覚基盤モデルの性能を引き出せるデコーダの設計が必要

© GO Drive Inc. 13 シーン特徴の抽出と頭部プロンプティング 𝑥ℱ • 入力画像からDINOv2で抽出した特徴を線形層で次元削減して得られる𝑥ℱ ∈
ℝ𝑑model×𝐻×𝑊 に対し、対象人物の頭部位置を示す情報を付加する • 頭部位置を示すサイズ𝐻 × 𝑊の二値マスク𝑀と学習可能な位置埋め込み𝑝head ∈ ℝ𝑑modelを掛け合わせ、 𝑥ℱ に加えることでシーン特徴マップ𝑆を得る 𝑀 𝑆 𝑆 = 𝑥ℱ + 𝑀 ∗ 𝑝head

© GO Drive Inc. 14 特徴量の更新 𝑥ℱ • シーン特徴マップ𝑆を1次元のシーントークン列とし、さらに注視対象が画像の範囲内にあるかどうかを表すタスクトークンを加える
• 2次元絶対座標に基づく正弦波位置埋め込みを加算した上でTransformerのエンコーダ層に通して特徴量を更新する 𝑀 𝑆 𝑡 Τ in out , 𝑠1 , 𝑠2 , ⋯ , 𝑠𝐻×𝑊

© GO Drive Inc. 15 最終出力の生成と目的関数 𝑥ℱ • シーントークンを2次元に再構成し、CNNによって注視対象を示すヒートマップを生成 •
タスクトークンからMLPによって注視対象が画像の範囲内にあるかどうかを予測 • ヒートマップの画素ごとのクロスエントロピーと範囲内外予測のクロスエントロピーの重み付き和を最終的な目的関数として学習 𝑀 𝑆

© GO Drive Inc. 16 提案アーキテクチャの妥当性の検証 DINOv2で抽出した特徴をデコーダでヒートマップに変換するシンプルなベースラインを使って3つの観点から提案アーキテクチャの妥当性を検証
1. 頭部位置情報の挿入位置 2. デコーダの構成 3. 頭部ブランチの有無

© GO Drive Inc. 17 提案アーキテクチャの妥当性の検証 1. 頭部位置情報の挿入位置 → 特徴抽出後
• エンコーダによる特徴抽出の前と後で比較すると、特徴抽出後に挿入した方が性能が高い • 特徴抽出後に挿入することにより、エンコーダのファインチューニングを不要にできる

© GO Drive Inc. 18 提案アーキテクチャの妥当性の検証 2. デコーダの構成 → Transformer
• 6層のCNNと、1層のTransformer + 2層のCNNを比較すると後者の方が性能が高い（学習パラメータ数は同等） • 人物から注視対象までの距離が長い場合、数層程度のCNNでは受容野が小さすぎるのではないか

© GO Drive Inc. 19 提案アーキテクチャの妥当性の検証 3. 頭部ブランチの有無 → 無
• Transformerデコーダでは頭部ブランチをなくしてもほとんど性能が低下しない • 従来手法では頭部ブランチで視線の向きを認識してきたが、DINOv2のような視覚基盤モデルから得られる特徴には視線情報がすでに含まれているはず • が、CNNデコーダでは頭部ブランチをなくすと性能が低下するため、 Transformerのグローバルな情報伝達機構が重要なのではないか

© GO Drive Inc. 20 性能評価出力ヒートマップの画素値を信頼度とするROC曲線の面積出力ヒートマップの最大
値と注視対象の真値との L2距離注視対象の画像範囲内外予測のAverage Precision 出力ヒートマップの最大値と注視対象の真値（~10個）とのL2距離の平均値と最小値表中の参考文献の番号は本資料のものとは異なります。原論文を参照ください。

値と注視対象の真値との L2距離注視対象の画像範囲内外予測のAverage Precision 出力ヒートマップの最大値と注視対象の真値（~10個）とのL2距離の平均値と最小値学習パラメータ数は従来手法の1/20程度であるにも関わらずSoTA性能を達成表中の参考文献の番号は本資料のものとは異なります。原論文を参照ください。

値と注視対象の真値との L2距離注視対象の画像範囲内外予測のAverage Precision 出力ヒートマップの最大値と注視対象の真値（~10個）とのL2距離の平均値と最小値 NVIDIA RTX4090 1枚を使った1.5時間の学習でSoTA性能に到達学習パラメータ数は従来手法の1/20程度であるにも関わらずSoTA性能を達成

値と注視対象の真値との L2距離注視対象の画像範囲内外予測のAverage Precision 出力ヒートマップの最大値と注視対象の真値（~10個）とのL2距離の平均値と最小値同じバックボーン (ViT-B) で全体を学習する手法よりも高性能表中の参考文献の番号は本資料のものとは異なります。原論文を参照ください。

© GO Drive Inc. 24 汎化性能の評価 • GazeFollowで学習したモデルをファインチューニングなしで異なるデータセット（VideoAttentionTarget、ChildPlay、GOO-Real）に適用 •
提案手法は従来手法に比べてデータセットが変わることによる性能低下が小さく、依然としてSoTA性能を維持 • 提案手法は汎用的な視覚基盤モデルを凍結して使っていること、学習パラメータ数が小さく過学習しにくいこと、補助的なモデルを使っていないこと等が要因として考えられる表中の参考文献の番号は本資料のものとは異なります。原論文を参照ください。

© GO Drive Inc. 25 推論時間の評価 • NVIDIA RTX4090 1枚を使った場合の提案
手法の推論時間は15ms（約66fps） ◦ 実運用では頭部検出に要する時間が加算されることに注意 • DINOv2による特徴抽出が全体の95% • 画像中の複数人の注視対象を推定する場合は、デコード処理だけをそれぞれの人に対して行う（10人処理しても19ms） • 位置埋め込み𝑝head を加算する代わりに頭部位置をトークンとして扱うことで複数人のデコードを同時に行うことができる（が、若干性能が低下する）

© GO Drive Inc. 28 まとめ • 注視対象の推定において、学習済みの視覚基盤モデルを最大限に活用することで従来よりも大幅に簡潔なアーキテクチャを持つGaze-LLEを提案 •
これまで主流であった頭部クロップ画像を処理するブランチを廃して特徴抽出を一本化し、頭部位置をプロンプトとして与える軽量なデコーダで注視対象ヒートマップを生成 • 視覚基盤モデルのナイーブな利用では効果がないことを示し、提案アーキテクチャの妥当性を複数の観点から定量的に検証 • 従来比1/20程度の少ない学習パラメータ数により、1.5GPU時間の学習でSoTAを達成

© GO Drive Inc. 29 所感 Gaze-LLEのFig.1 [11]のFig.1 • 基盤モデルを使って従来手法よりもアーキテクチャをシンプルにしつつ性能も改善する
（維持する）というアプローチは色々なタスクで参考にできそう • 単にシンプルにして終わりではなく、その妥当性をしっかりと検証している点も良い • ただ、頭部検出も含めて1本のパイプラインでe2eに注視対象推定を行う論文[11]が CVPR’22で発表されており、それに対する優位性は気になった ◦ Appendixにおいて、特に評価プロトコルが大きく異なることや、提案手法の方が高性能なことは示されているが、本文の方でしっかり説明した方がいい気が

© GO Drive Inc. 30 参考文献 [1] https://github.com/fkryan/gazelle [2] F.
Tonini et al., “Object-aware gaze target detection,” ICCV, 2023. [3] https://www.isus.jp/wp-content/uploads/openvino/2024/docs/omz_models_model_gaze_estimation_adas_0002.html [4] http://gazefollow.csail.mit.edu/explore.html [5] E. Chong et al., ”Detecting attended visual targets in video,” CVPR, 2020. [6] A. Recasens et al., ”Where are they looking?,” NIPS, 2015. [7] A. Gupta et al., “A modular multimodal architecture for gaze target prediction: Application to privacy-sensitive settings,” CVPR Workshops, 2022. [8] S. Tafasca et al., “Sharingan: A Transformer architecture for multi-person gaze following,” CVPR, 2024. [9] M. Oquab et al., “DINOv2: Learning robust visual features without supervision,” arXiv:2304.07193, 2023. [10] Q. Miao et al., “Patch-level gaze distribution prediction for gaze following,” WACV, 2023. [11] D. Tu et al., “End-to-end human-gaze-target detection with Transformers,” CVPR, 2022.

© GO Drive Inc. 32 他の視覚基盤モデルとの比較表中の参考文献の番号は本資料のものとは異なります。原論文を参照ください。 ImageNet-1k（128万枚）で学習数億枚の独自データセットで学習 •
エンコーダはDINOv2でもCLIPでも大きな性能差はない ◦ 両者の学習方法の違い（自己教師あり学習 vs 画像-テキスト対照学習）は重要ではない • ImageNet-1kで学習したモデルを使うと性能が落ちることから、数億枚レベルの超大規模なデータセットでのpretrainが重要？

© GO Drive Inc. 33 物体検出モデルによる頭部検出結果を使った場合 • 頭部のバウンディングボックスとして真値ではなくYOLOv5で頭部検出を行った結果を使ってもほぼ性能は低下しない •
頭部位置は低解像度なマスクとしてGaze-LLEに入力されるため、頭部位置の変動にロバストなのではないか

© GO Drive Inc. 34 エンコーダも学習した場合 • エンコーダの学習により性能が向上するかを確認するため、DINOv2をLoRAを使って学習 • 性能改善は微々たるものであり、DINOv2の特徴が注視対象推定において十分に効果的で
あることや、性能がすでに人間と同等になっており飽和していることが示唆される

Gaze-LLE: Gaze Target Estimation via Large-Scal...

Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders

More Decks by Kazuyuki Miyazawa

Other Decks in Technology

Featured

Transcript