一人称視点映像解析の最先端（MIRU2025 チュートリアル）

25/07/29 MIRU2025チュートリアル一人称視点映像解析の最先端産業技術総合研究所人工知能研究センター八木拓真（Takuma Yagi） 1

八木拓真（Takuma Yagi） 2 専門：人物行動・シーン理解のためのコンピュータビジョン → 特に一人称視点映像解析（身体に装着したカメラ映像の解析） 2023-現在産業技術総合研究所人工知能研究センター
研究員 2024-25 カーネギーメロン大学協力研究員 2022-23 東京大学生産技術研究所特任研究員 2022 博士（情報理工学）東京大学 2017 学士（工学）東京工業大学 LLM物体状態推定 WACV’25 手操作物体の追跡に基づく物探し支援 IUI’21, TiiS’22 大規模一人称視点映像DB CVPR’22 Best Paper Finalist CVPR’24 人物位置の予測 CVPR’18 映像からの人物行動理解シーン認識による行動支援大規模映像データセットの構築バイオ実験映像DB IJCV’25

産総研について国内最大規模の公的研究機関 8領域に合計2,300名の常勤研究職員が所属人工知能研究センター (AIRC) 実世界で人間と協働しながら困難な社会的課題を解決する人工知能の実現に向けた総合センター 11チーム、常勤職員80名超コンピュータビジョン研究チーム常勤職員10名,
RA・インターン16名拠点：茨城県つくば市 3 @VGG, UK @UTN, DE 3D ドローン医用 LIMIT 動画 V&L 動画 CV&HCI 3D＆LIMIT 3D

本日のアジェンダ一人称視点映像解析とは何か？一人称視点映像の何が特別なのか？どのようなタスクがあるか？どのようなデータがあるのか？どのようなモデルがあるか？応用先は？まとめと展望 5

ウェアラブルカメラの普及 7 警察官のカメラ装着、8月試行開始職務質問や警備を録画．日本経済新聞．2025年7月24日， https://www.nikkei.com/article/DGXZQOUD222XA0S5A720C2000000/

映像からの人物行動認識 YouTubeやTV/映画映像を用いた引きの映像の行動理解に焦点 8 NTU RGB+D [Shahroudy+, CVPR’16] ActivityNet [Heilbron+, CVPR’15]
MSR-VTT [Xu+, CVPR’16] FineGym [Shao+, CVPR’20]

9 固定視点（三人称視点）からの映像：人の移動、顔の識別、簡単な行動の識別個人の動機・興味、詳細な行動 https://www.youtube.com/watch?v=fSo7Lk83uJU

一人称ビジョンとは人の身体に装着したウェアラブルカメラから撮影した、その人自身の視点から見た映像を用いた技術の総称装着者に合わせて移動するため使用場所を問わない装着者の視点から見た行動や環境を精細かつ連続して記録可能 10

11 人物視点（一人称視点）からの映像：手や物体、人の動機、興味や表情、細かな操作、etc... →一人称ビジョンはどんなチャレンジを提供するか？ https://www.youtube.com/watch?v=6wzDOg93RDM

一人称視点映像記録の歴史 12 1945 [Bush, ‘45] 1991 ©Steve Mann 2023 https://www.projectaria.com/

使用されるデバイス市販のアクションカメラ・スマートグラスおよび専用品近年は映像だけでなく音声、加速度、カメラ位置なども取れるマルチモーダル化が顕著 13 GoPro 超広角映像が簡単に撮れる万能選手 Vuzix Blade
BtoB向け OS搭載スマートグラス Tobii/Pupil 視線データを高精度で記録可能 THINKLET 首掛け型のハンズフリービデオ通話端末

一般向けデバイス一般用デバイスも登場しているが、キラーアプリがなく短命傾向スマートフォンの代替/補完を指向 14 © Scott Stein/CNET Xreal Eye スマートグラス用モジュール
数十秒の記録が可能 Xreal One Proと連携 Humane AI Pin カメラ付きAI秘書 24年4月発売 25年2月サービス終了 © Humane © Snap Spectacles 開発者向けARグラスハンドトラッキング機能付き Ray-Ban/Oakley Meta AIスマートグラス日常向け/屋外向けの 2デザインをラインナップ © Meta

Aria Glasses: データ収集専用の眼鏡型デバイス広角RGB映像・6D姿勢、視線などを記録可能で、プライバシー保護も考慮重量75gと軽量 Meta専用ではなく研究目的で外部機関への貸与も実施中 15 https://www.projectaria.com/datasets/apd/ https://facebookresearch.github.io/projectaria_tools/docs/tech_spec/hardware_spec

Aria Gen 2 稼働時間の長時間化（1-2h→6-8h） HDR対応、手および視線のトラッキング、自動音声認識アプリのインストールが可能に 16 https://ai.meta.com/blog/aria-gen-2-research-glasses-under-the-hood-reality-labs/

カメラの装着位置用途・目的に応じて様々な位置に取り付けられる 17 頭部目線に沿う重い胸部最も安定視線からずれる首元
快適度が高い発熱・揺れ手首 [Ohnishi+, CVPR’16] 手元をアップで映す画角の制約大

視点・視野角による見え方の違い広い範囲を映すため広角レンズ（対角120-150度）が用いられる広角レンズは周辺部で大きな歪みが発生カメラ位置および活動の種類（例：立ち仕事か否か）によって視点の調整が必要
18 頭部首部広角（対角130°）線形（対角100°）画像は『コンピュータビジョン最前線 Winter 2024』より引用

一人称・二人称・三人称の違い 19 対象迄の距離画像の詳細さ一人称視点（Egocentric）二人称視点三人称視点（Exocentric） https://www-users.cse.umn.edu/~hspark/FirstPersonVision/CVPR%20Tutorial_intro.pdf

なぜ一人称視点映像なのか？ 20 我々は自分の身体を持ち、物体操作・会話など、一人称視点を通して世界と関わっている受動的にしか動けないネコは縞模様を認識できない [Held & Hein, ’63] [Held
& Hein, ‘63] [Jayaraman & Grauman, ICCV‘15] 人が能動的に動いた結果何が起こるかを理解する必要がある

近年の動向 “Egocentric Perception”の合言葉の元CV・ロボット領域で注目 Meta/AppleなどのBig Techがハードウェアを携えて参入 21 EgoAct@RSS2025 EgoVis@CVPR2025 複数のデータセットを束ねての共同チャレンジの開催
本会議から25件の発表を招待一人称視点映像のロボット活用にフォーカスしたワークショップ

一人称視点映像の特徴 23 手操作自己運動（ego-motion）視線（gaze） [Huang+, ECCV’18] [Zimmermann+, ICCV’17] [Zhou+,
CVPR’17]

視線（gaze）眼球の中心点が向く方向を2Dカメラ画像に投影したものサッカード（saccade）により焦点（赤丸）は0.2-3秒ごとに絶え間なく動く興味対象の推定、コミュニケーション解析、タスク予測などに有用 24 https://pupil-labs.com/products/neon https://docs.pupil-labs.com/neon/hardware/module-technical-overview/ 眼カメラ虹彩位置の推定に基づく視線推定 [Tsukada+,
ICCVW’11]

視線はタスク依存である [Yarbus, ‘67] 同じ視覚刺激であっても、対象中の何に注目するかによって視線の軌跡（gaze scanpath）は変化する 25 Free view Age
Clothes Story Positions Summary Wealth 絵画を要素別に注目した際の視線軌跡

物体探索タスクにおける視線軌跡推定 [Yang+, CVPR’20] 逆強化学習を用いた物体探索中の視線軌跡推定粗い画像を入力として「注視」した領域のみの高解像度画像を繰り返し得る設定で次にどこに視線を向けるかを予測（例：食器らしい領域にまず注目） 26 視線軌跡（黄枠は探索対象）予測された視線軌跡注視回数
注視回数と対象物体にたどり着けたかの関係対象物体到達の累積確率逆強化学習モデルの概要

画像と視線軌跡からの探索物体推定入力：画像+視線軌跡 → 出力：探索物体の種類およびその存在 27 物体セグメンテーション注視時間の長さ注視の順序注視位置物体の意味領域
Gaze Scanpath Transformer [Nishiyasu+, CVPRW’24]

一人称視点映像からの視線推定 [Huang+, ECCV’18] 一人称視点映像から視線センサなしで視線位置を推定 28

自己運動（ego-motion）身体に装着されたカメラの3次元移動軌跡、あるいはその画像に反映された見かけ上の2次元運動のこと自己運動は固定カメラでは発生しない問題（物体追跡、モーションブラー）を生み出す一方、装着者の行動・属性に関するユニークな情報を持つ 29 自己運動からの個人識別 [Poleg+, ACCV’14] 入力フレーム
青い領域の見かけ上の移動量

自己運動の例 30 自己運動の結果、静止物体であっても画像の見かけ上は動いてしまう画像は『コンピュータビジョン最前線 Winter 2024』より引用

自己運動の使い方自己運動は前景運動（シーンの実際の動き）と背景運動（観測点が動くことによる見かけ上の動き）に分けられる目的に応じて前景・背景運動を分けて利用することで、行動認識などの精度の向上につなげられる 31 3次元軌跡・マップを取得したい →SLAM・VO (Visual Odometry)を利用
動きを分類・認識に利用したい →オプティカルフローから特徴抽出自己運動の影響を省きたい →前景以外の平均運動ベクトルを引く特徴点の追跡見かけ上の運動前景運動 CNN オプティカルフローワールド上の 6Dカメラ姿勢

手操作（hand manipulation）一人称視点映像は手を大写しにするため、手や道具を用いた働きかけをより詳細に記録できるタスク例手位置（セグメンテーション）推定手の関節の2次元/3次元位置推定把持（物の握り方）分類ジェスチャ認識
手の将来の動きの予測操作物体・二次物体の検出 32 手-物体インタラクション認識のタスク [Bandini+, PAMI’20]

3次元手姿勢の推定映像中に映る手の手首を起点とした各関節点の位置の推定 AR・VRデバイスに取り付けられたカメラからのジェスチャ・行動認識に有用指の位置が自身・物体によって隠れるためいかに真値を得るかに課題 33 GANeratedHands [Mueller+’, CVPR’18] 単眼RGB映像からの手姿勢推定 →物体や他の手との相互作用に課題
HOT3D [Banerjee+, CVPR’25] 単眼RGB映像からの手の形状復元・6D物体姿勢推定

一人称視点映像解析のタスク 35 自己の理解他者の理解環境の理解装着者自身の行動/状態の理解 • 行動・物体検索 • 自己姿勢推定
• 将来行動予測 • 視線推定装着者が観察する人の行動の理解 • 発話予測 • アイコンタクト予測 • 他者との位置関係の予測 • 共同注意の認識 • 表情認識装着者を含めた環境や構造の理解 • ３次元地図の作成 • 操作物体検出 • アフォーダンス認識 • 手順認識 • シーン状態の認識

自己の理解：装着者の行動・エピソードの理解一人称視点映像からの個人の経験に関するエピソードの理解例：過去の行動・物体の種類や位置など 36 Ego4D Episodic Memory Benchmark [Grauman+, CVPR’22]
Visual Query 画像→当該物体の出現タイミング Language Query 言語指示→指示に対応する物体の情報

自己の理解：一人称視点映像からの自己姿勢推定ウェアラブルカメラからは通常装着者の姿勢は観測できないが、自己運動から頭の向き、および（粗い）その全身姿勢を推定できる 37 入力映像頭部姿勢自己の全身姿勢 Ego-Body Pose Estimation
[Li+, CVPR’23] SLAMを介して推定した頭部姿勢系列を経由して滑らかな全身運動を生成

近年はHMDを想定した下向きカメラからのより正確な全身姿勢推定やマルチモーダル全身運動の生成が取り組まれている 38 自己の理解：一人称視点映像からの自己姿勢推定 REWIND [Lee+, CVPR’25] HMDに搭載された下向きカメラ映像からの全身+手指姿勢推定 Ego4o
[Wang+, CVPR’25] 一人称視点画像/IMUからのマルチモーダルモーションキャプチャ・動作説明文生成

他者の理解：視線・発話の推定 Looking at Me (LAM): ある人物が装着者を見ている区間の推定 Talking to Me(TTM): ある人物が装着者に話しかけている区間の推定
39 Ego4D Social Interactions Benchmark [Grauman+, CVPR’22]

他者の理解：アイコンタクトの推定固定/頭部装着カメラからアイコンタクトがあるかどうかを教師なしで推定 40 Everyday Eye Contact Detection [Zhang+, UIST’17] https://youtu.be/ccrS5XuhQpk

環境の理解：手操作物体検出手、接触物体および二次物体のアノテーションを付与したデータセット画像から (i) 手・操作物体（手が触れている物体） (ii) 二次物体（操作物体を介して影響を受けている物体）の位置 (iii) 接触状態
(iv) 把持状態を認識 41 Objects-in-Contact Detection [Cheng+, NeurIPS’23]

環境の理解：一人称視点物体追跡長時間の映像に出現する同一物体の追跡は難しい小物体、視点変化、再出現、変形など 42 EgoTracks [Tang+, NeurIPS’23 D&B] 例：ガスバーナー（blowtorch）の追跡

応用例：もの探し行動支援 43 ユーザが手で触れた物体を首のカメラから検出・追跡しインスタンス毎に分類物体の最終出現タイミングの提示により場所の想起を促す物体を映像から自動追跡物体の最終出現タイミングを提示スマートフォン上で探したい物の画像を選ぶことで検索 GoProカメラ
GO-Finder [Yagi+, IUI’21]

環境の理解：一人称視点映像からの手順構造の認識作業映像はgoal・step・atomic actionからなる階層構造を持つ製造現場などでのタスクの実行状況のモニタリングに有用 44 Ego4D Goal-Step [Song+, NeurIPS’23] 手順を含む一人称視点映像からの階層行動認識データセット

余談 45 マクドナルドでの調理作業の一人称視点映像 “POV videos”で検索すると出てきます https://www.youtube.com/watch?v=RKWLu6UHryQ

一人称視点映像のデータセットインターネット上に登場しないデータのため、独自に収集する必要がある近年、多組織連携を通じてより大規模かつ網羅的な映像データセットが整備 47 EPIC-KITCHENS [Damen+, ECCV’18;IJCV’22] Ego4D [Grauman+, CVPR’22]
Ego-Exo4D [Grauman+, CVPR’24] 2か国/2組織/著者11人 9か国/13組織/著者85人 10か国/22組織/著者101人

EPIC-KITCHENS：一人称視点調理映像データセット 2ヶ国、45地点、100時間分の調理映像データセット語彙が統制された行動（verb）および物体（noun）アノテーションを密に提供 48 EPIC-KITCHENS [Damen+, ECCV’18]

EPIC-KITCHENS：一人称調理映像データセット物体セグメンテーション、環境音認識、物体追跡などの様々なベンチマークのベースとして広く使用 49 VISOR [Darkhalil+, NeurIPS’22] EPIC-SOUNDS [Huh+,
ICASSP’23]

Ego4D：世界規模の一人称視点映像データベース Meta AIと14大学組織からなるデータ基盤構築プロジェクト多様な一人称視点映像および説明文からなる大規模映像言語コーパスを収集 50 3670時間分の日常生活映像 931人のカメラ装着者 74の地点
9か国屋内外の 136シナリオ 385万の映像ナレーション 17のタスク 5つのベンチマーク Ego4D [Grauman+, CVPR’22]

Ego4Dコンソーシアム 51

地理的多様性 52 [Grauman+, CVPR’22] より引用・翻訳

人口統計的多様性 53 大学院生だけではない、世界中の様々な人たちの多様なアクティビティを収録

東大チームでの収集調理（40人90時間）および工作（41人50時間）に関するデータを収録いずれも人材派遣業者を介して有償で雇用（コスト高）調理：説明会ののち各自家に持ち帰ってもらい参加者自身で収録工作：研究室で立会いの下収録 54

ナレーションのアノテーション全映像（3,670時間）に対して2種類のナレーションを2人のアノテータが付与映像中の個別イベントの時刻付きナレーション（単文、平均13.2文/分）映像全体（5分間）の要約（1-3文）映像と意味情報と結び付ける基底情報として機能アノテーション総所要時間25万時間超→FAIRリソースの恩恵 55

ベンチマークタスク各タスクについてベースラインモデルとその結果を提供、チャレンジを開催 56 過去エピソード記憶「私のＸはどこ？」現在手＆物体「私は今どのように何をしている？」音声-視覚話者分離
「誰がいつ何をしゃべったか？」社会的インタラクション「誰が誰に注意を向けている？」将来予測「私は次に何をする？」未来 [Grauman+, CVPR’22] より引用・翻訳 + EgoTracks Goal-Step v2.0以降で追加

Ego-Exo4D：技能理解のためのマルチモーダル多視点映像DB 技能活動（サッカー/料理/音楽等）における一人称-三人称間の視点遷移に注目一人称/三人称視点映像および音声・加速度・視線・カメラ姿勢などを記録 57 Ego-Exo4D [Grauman+, CVPR’24]

概要多視点映像に加え、音声・加速度・視線・姿勢などのモダリティや、異なる粒度での行動説明文を付与（のべ1,422時間） 58

研究の狙い人の技能の理解はAIを用いた作業支援や人に学ぶロボットの実現に不可欠人が技能を学ぶには、一人称（egocentric）視点と三人称（exocentric）視点の間を行き来する必要がある一人称（シーンの詳細）と三人称（人の全身姿勢や周辺環境）は相補的技能獲得にあたり観察→実行間のギャップがある 59 教師生徒三人称→一人称への転写はどうなされるのか？
三人称視点（観察）一人称視点（実行）

映像例 60

シナリオとデータ分量 8シナリオ、のべ1422時間（実質300時間弱） 15機関よりのべ参加者数839人が収録に参加各参加者には経験者～プロまでの比較的高い熟練度を要求 61

基底アノテーションタスク非依存の教師情報として3種類の異なる言語アノテーションを付与 1) Expert commentary そのタスクのエキスパート・熟練者（コーチ、先生、専門家）が身体の動きとタスクの成否の説明を提供 2)
Narrate-and-act descriptions 行為者自身による実況なぜ（why）どのように（how）その行動を行ったかを説明 3) Atomic action descriptions 第三者による説明 1つ1つの単位行動について行為者が何（what）をしたかを説明 62 ナレーションの例

各アノテーションの性質の比較 63 エキスパートによる教示が語彙、分量ともに充実

ベンチマーク 64 Relation：幾何的関係の認識 Keystep Recognition：手順の認識・理解 Proficiency：試行の熟練度/成否の認識 Pose Estimation：映像からの全身姿勢・手姿勢の推定

ExpertAF：一人称視点映像からの熟練者評価生成身体部位ごとの要約生成 + 姿勢情報のtemporal alignmentにより訓練データを作成映像からのコメント生成・検索・見本姿勢の生成を検証 65 ExpertAF [Ashutosh+, CVPR’25]
↓ Ego-Exo4D

ExpertAF：一人称視点映像からの熟練者評価生成身体部位ごとの要約生成 + 姿勢情報のtemporal alignmentにより訓練データを作成映像からのコメント生成・検索・見本姿勢の生成を検証 66 ExpertAF [Ashutosh+, CVPR’25]

HD-EPIC：詳細料理映像データセット料理映像中の行動・物体・環境に関する詳細アノテーションを付与 6つのカテゴリ（材料、レシピ、栄養素、視線、物体移動、3D、詳細行動）に関するVideo QA（合計27K問）を提供 67 https://www.youtube.com/ watch?v=xxlXweMXKsM HD-EPIC [Perett+,
CVPR’25]

アノテーション 68 行動とその区間栄養素ナレーション操作物体の検出および追跡 3次元物体位置視線レシピ

質問例（Fine-grained Action） 69 以下の文のうち、どれがビデオ内の動作を最もよく表していますか？ [00:03:56 – 00:04:03] A. 右手のスポンジでまな板を洗い、その後、裏面も洗えるようにまな板を回転させる B.
右手にスポンジを持ってまな板を洗いながら左手で固定し、その後左手でまな板を水で流して石けんを落とす C. 左手でまな板を食器ラックから取り出し、両手でキッチンカウンターに置く D. 左手でまな板を持ち上げ、その後両手で水道の下にまな板をかざして洗う E. 右手で乾燥ラックからまな板を取り上げ、左手のティータオルでまな板を拭きながら右手でひっくり返して回転させる左右の手の操作物体とその操作

質問例（Ingredients） 70 このビデオで参加者が計量した赤パプリカは何グラムでしたか？ [00:14:04 – 00:14:21] A. 53 g B.
58 g C. 46 g D. 68 g E. 71 g 材料の認識と計器読み取り

質問例（Recipe） 71 参加者が 00:06:06 〜 00:06:20 の間に行った工程はどれですか？ A. 卵を混ぜたら、中火で好みの固さになるまで焼く B.
卵に塩で味付けし、好みでパプリカを加える C. 盛り付けの際、バゲットを半分に切って両面にバターを塗り、ベーコン・スクランブルエッグ・チーズを挟む D. 別のフライパンに残りの油を入れ、計量カップに卵を割り入れて牛乳を少し加え、溶きほぐす。仕上げにこしょうを振る E. 大きなフライパンで油の半量を熱し、ベーコンを入れて時々返しながら、きつね色になるまで焼くレシピ中の手順の理解

質問例（3次元認識） Bboxで示される空間上の位置の理解 72 00:09.8秒でのbbox (559, 584, 1269, 945) にある物体から参加者が取り出したのは、次のうちどれですか？ A.
パン粉の容器、スパイスの瓶 B. 石けんのボトル C. グラス、布 D. ティータオル、グラス E. 砂糖瓶のふた、フォークただしこの例では3次元位置を使わずとも行動から解けてしまう可能性が高い

その他のデータセット・ベンチマーク（1） 73 Assembly101 [Sener+, CVPR’22] 玩具模型の組立 EgoGen [Li+, CVPR’24] 環境認識モデル構築のための
一人称視点人工データジェネレータ EgoSchema [Mangalam+, NeurIPS’24] 映像全体の情報を要求する多肢選択QA Aria Digital Twin [Pan+, ICCV’23] ３次元理解のための屋内データセット

その他のデータセット・ベンチマーク（2） 74 EgoTextVQA [Zhou+, CVPR’25] 映像中のテキスト理解を要求するVideoQA HanDyVQA [Tateno+, MIRU’25] 詳細手物体インタラクション理解を要求するVideoQA
HoloAssist [Wang+, ICCV’23] 1対1の遠隔教示映像データセット（166時間） Nymeria [Ma+, ECCV’24] 屋内外の全身運動を記録したデータセット（300時間）

一人称視点映像解析のモデル Dual-Encoder型 EgoVLP [Lin+, CVPR’22] LaViLa [Zhao+, CVPR’23] Multimodal LLM型
MM-Ego [Ye+, ICLR’25] EgoLM [Hong+, CVPR’25] 76 Text Encoder “Take out the battery from the camera…” Video Encoder 映像テキスト Video Encoder Text Encoder “What is the person doing?” Text Decoder プロンプト映像トークン列 Projection 出力 “The person takes out the battery from the camera…” Cosine Similarity 類似度 0.95

EgoVLP：一人称視点映像に特化したDual-Encoderモデル 77 Ego4Dの動画クリップ-説明文アノテーションを用いた事前学習データを作成（EgoClip）別の場面で行われた同一行動（例：ベッドで寝ながらスマホを取る/外を歩きながらスマホを取る）に対して明示的にペナルティを与えるEgoNCEを提案学習した特徴はCLIPのように様々な下流タスクに流用可能結び付けたいペア同一の動詞or 名詞を含むペア EgoVLP
(Video-Language Pretraining) [Lin+, NeurIPS’22] EgoNCEの損失項 Video Encoder Text Encoder “#C watching the phone while lying on the room” 動作は同一、場所が異なる場所が同一、動作が異なる

LaViLa：大規模言語モデルとの連携通常のvideo-text modelを訓練後 LLMを利用して補完した説明文を追加して再学習 REPHRASER：字幕を言い換え NARRATOR：短時間の映像を基にキャプションを生成複数のデータセットにおける映像- テキスト検索タスクにおいて高性
能 78 LaViLa [Zhao+, CVPR‘23]

MM-Ego：一人称視点映像に特化したMLLM Ego4Dの映像-ナレーションペアをLLMを通じてQAペアに変換長時間の映像中で重要なタイミングを推定するための2段階推論 79 MM-Ego [Ye+, ICLR’25] LLaVA-OV +Ego SFT
MM-Ego 47.32 55.97 61.27 EgoMemoriaでの精度比較（debiased acc.）

EgoLM：姿勢推定と行動認識の融合一人称視点映像+疎なIMUから姿勢復元と動作説明を同時に生成映像コンテキストが姿勢推定・動作説明双方に有効 80 入力映像 EgoLM [Hong+, CVPR’25] IMU入力（頭、両手首）
予測姿勢動作キャプション

EgoLM：姿勢推定と行動認識の融合通常のLLMを姿勢特徴量を受け付けるようfine-tune 81 [Hong+, CVPR’25] 姿勢情報トークンの事前学習姿勢情報の事前学習映像・IMU信号を含めたInstruction Tuning 推論時の入力トークン列

実際のところは？現状既存の汎用MLLMを使うのがベスト InternVideo2.5, Qwen2.5-VLなど一部のMLLMは既にEgo4Dなどを訓練に使用バックボーン性能に強く依存映像-テキスト検索などのマッチングでは Dual Encoder型が使いやすい EgoVLPは使用実績多
CLIP特徴をフレーム毎に使うモデルも健在 82 Model Avg (Acc.) Random 19.6 GPT-4o (text) 40.9 InternVideo2 (encoder) 33.1 LaViLa 42.2 VideoLLaMA2.1-7B 41.8 LLaVa-Video-7B 54.1 mPLUG-Owl3-8B 51.0 InternVideo2.5 55.3 Qwen2.5-VL-7B 53.0 Qwen2.5-VL-72B 68.8 GPT-4o (vision) 58.2 HanDyVQA [Tateno+, MIRU’25] 5カテゴリの平均zero-shot性能比較

一人称視点映像解析の有用性アクセシビリティ、作業行動支援、AR/VR、ロボティクスなど生活・産業両方で有用 84 https://openai.com/customer-stories/be-my-eyes https://prtimes.jp/main/html/rd/p/000000054.000042518.html https://www.youtube.com/watch?v=HXkp3ILm5bY https://pc.watch.impress.co.jp/docs/news/1180383.html

応用例：アクセシビリティ AIスーツケース（日本科学未来館）スーツケースにカメラ・LiDARを搭載して視覚障碍者の屋内外の移動をサポート 85 [Kamikubo+, CHI’25]

応用例：AR作業支援 86 State-Aware Configuration Detection [Stanescu+, ISMAR’23] HoloLensを用いた組立作業のARチュートリアル

応用例：バイオ実験の記録と自動化 87 実験者が作業手順と結果を自動記録手順GT 手順予測 FineBio [Yagi+, IJCV’25] 実験行動の自動認識のためのバイオ実験映像
データセット（14.5時間）手順・単位動作・操作物体に関する階層的アノテーションを整備左手GT 右手GT 単位動作予測

応用例：ロボティクス現行のVLA (Vision-Language-Action) モデルの訓練はテレオペレーションに依存データ量のスケール、器用な動作データの収集に課題 Q: 人の一人称視点映像からロボットの行動方策を学習できないか？ 88 ?

人の一人称視点映像からのロボット学習 89 特徴量転移型一人称視点映像で事前学習したvisual encoderを転移/ 人とロボットのFPVを同一空間に射影姿勢転移型一人称視点映像から全身・手指姿勢を抽出 Vision Encoder
Vision Encoder Action Decoder 2つのパラダイムが共存 “Take out the battery from the camera…” Text Encoder Pose Detector 事前学習（対照学習、VAEなど） Trajectory Policy 転移教師

特徴量転移型一人称視点映像の背景・タスク・運動の多様性をそのまま視覚特徴学習に利用汎用性が高い一方関節の制御そのものでの有用性は低い 90 R3M [Nair+, CoRL’22] Ego4Dの教示で時間方向に関する対照学習を行うことでロボットアーム操作に有用な視覚特徴を学習

姿勢転移型手指の軌跡データをロボットのハンド部の軌跡学習に利用高いデータ効率、ただしアクチュエータの違いの吸収の必要あり同時並行で多数の手法が登場 ZeroMimic [Shi+, ICRA‘25], EgoVLA [Yang+, Arxiv’25],
Being-H0 [Luo+, ArXiv’25] 91 EgoMimic [Kareer+, ArXiv’24] 人とロボットで共通のセンサ（Aria Glasses）を利用して手の軌跡で統合学習

アフォーダンス推定の利用人のタスク映像から学習される中間表現（接触点・手の軌跡）をロボットの行動計画に利用 92 VRB [Bahl+, CVPR’23]

ロボット学習に向けたデータ収集 Apple発の手指アノテーション付き映像データセット今後も同様の試みが増えるかも？ 93 EgoDex [Hoque+, ArXiv‘25] 194のタスクに関する338Kエピソードを収録 Vision Proを利用し手指姿勢（手首の位置回転+指位置）を収集

一人称ビジョンの課題 95 プライバシー動画の記録解像度が上がるため、人の顔・スマホ操作・カード番号などの個人情報が洩れる可能性長期の個人適応個人の体験やニーズはそれぞれ異なるため数日～数か月単位でのモデルの個人化（カスタマイズ）が求められる
[Singh+, WACV’16]

EgoBlur：物体検出による匿名化顔・ライセンスプレート・クレジットカードなどを検出しぼかしをかけることで受動的にプライバシー情報を保護 96 https://www.projectaria.com/tools/egoblur/

EgoLife: 長時間・多人数インタラクションの記録 6人の参加者が1日8時間×7日間、同一の建物内で日常生活を行う様子を記録 Aria Glassesによるマルチモーダル計測+15か所の三人称視点映像 97 EgoLife [Yang+, CVPR’25]

EgoLife: 長時間・多人数インタラクションの記録各人の行動習慣を把握したパーソナルアシスタントを指向ただし素朴な連続行動記録はプライバシーの問題が大きく現実的ではないかも 98 EgoLife [Yang+, CVPR’25] https://egolife-ai.github.io/blog/

一人称視点映像解析の現在地結局今何が流行っている？データセット/ベンチマーク提案祭り地道なデータ収集とそれを利用したアノテーション・ベンチマーク構成が活発ただ、インターネット映像と比べると分量が全く足りていない！モデリングの方法自体は普通の動画像理解と共通、扱う現象が違う Metaが研究・製品含めて大きく先行、ロボット応用に向けて追従あるか？何が足りてない？幾何計測をどう生かすか：人体の3次元形状、物体の種類・姿勢などがわかった上でさらに何ができるか？
内部状態の理解：明確に見える行動以上の人の技能・モノの状態をどうモデリングするか 99

一人称視点映像解析の現在地今回扱っていないが重要なトピックは？音声・音響モデリング（例：EPIC-SOUNDS）リアルタイム・ストリーミング処理（例：ProvideLLM [Chatterjee+, ICCV’25]）ウェアラブルデバイスのユーザビリティ車載カメラ・ロボット視点映像理解今後アツいトピックは？日常生活のためのパーソナル・ウェアラブルAIアシスタントの開発
実験室・製造・物流などにおける専門的作業のモデリング・作業者支援ロボット学習のための一人称視点映像の収集と活用 100

一人称視点映像解析の今後視線音声・環境音手操作全身姿勢・運動 3次元メッシュ力覚・触覚 101 眼に直接見えるものを超えた人間中心のコンピュータビジョンへより高次の入力
より高次の出力巧みな物体操作・技能他者への教示・支援動機・習慣デジタルツイン物体の内部状態・構造コミュニケーションの促進現在の入力動画像テキスト現在の出力行動・物体の説明人体形状・物体姿勢

MIRU2025会期中の一人称ビジョンに関する発表招待発表2/21件、口頭発表3/88件、一般発表9/601件 7/30（水） IT2-03 Multimodal Cross-Domain Few-Shot Learning for Egocentric
Action Recognition IT2-07 Generating 6DoF Object Manipulation Trajectories from Action Description in Egocentric Vision OS2A-06 EventEgoHands: Event-based Egocentric 3D Hand Mesh Reconstruction OS2A-07 Event-based Egocentric Human Pose Estimation in Dynamic Environment IS1-085 手順ラベル記述に基づく持続時間推定を用いた作業動画における手順検出 IS1-107 一人称視点映像データセットの文化的観点からの分析 IS1-163 首掛けカメラデバイスのみを用いた装着者の姿勢推定 7/31（木） IS2-073 少量教師データ下の行動認識タスクにおける追加事前学習 IS2-094 手物体の位置情報を考慮した視覚言語モデルによる微細な一人称視点HOI理解 IS2-138 BioVL-QR: マイクロQRコードを用いた生化学分野の一人称視覚言語データセット IS2-140 MLLM-based Dataset Construction for Hazard-aware Guidance for the Visually Impaired 8/1（金） OS3A-08 HanDyVQA: A Video QA Benchmark for Fine-Grained Hand-Object Interaction Dynamics IS3-092 Error Detection and Correction for Action Recognition Using Large Language Models IS3-093 The Invisible EgoHand: 3D Hand Forecasting through EgoBody Pose Estimation 102

この分野へのみなさんの参加をお待ちしていますまとめ一人称視点映像解析：ウェアラブルカメラ映像からの人物行動理解一人称視点の設定を生かすことで日常・産業の詳細に踏み込むことが可能に一人称視点映像解析の要素・タスク・データセット・モデル・応用先を紹介今後の展開パーソナルAIアシスタント専門的作業のモデリング人の技能のロボットへの転移 103
CV最前線 Winter2024 『ニュウモン一人称ビジョン』もどうぞインターン・RA・ポスドクも募集しています → やります！ → やります！ → やります！

参考文献（1/6） [Heilbron+, CVPR'15] Caba Heilbron, F., Escorcia, V., Ghanem, B.,
& Carlos Niebles, J. (2015). Activitynet: A large-scale video benchmark for human activity understanding. In Proceedings of the ieee conference on computer vision and pattern recognition (pp. 961-970). [Shahroudy+, CVPR'16] Shahroudy, A., Liu, J., Ng, T. T., & Wang, G. (2016). Ntu rgb+ d: A large scale dataset for 3d human activity analysis. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1010-1019). [Shao+, CVPR'20] Shao, D., Zhao, Y., Dai, B., & Lin, D. (2020). Finegym: A hierarchical video dataset for fine-grained action understanding. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 2616-2625). [Rai+, CVPR'21] Rai, N., Chen, H., Ji, J., Desai, R., Kozuka, K., Ishizaka, S., ... & Niebles, J. C. (2021). Home action genome: Cooperative compositional action understanding. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 11184-11193). Xu, J., Mei, T., Yao, T., & Rui, Y. (2016). Msr-vtt: A large video description dataset for bridging video and language. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 5288-5296). [Bush, ‘45] Bush, V. (1945). As we may think. The atlantic monthly, 176(1), 101-108. [Ohnishi+, CVPR’16] Ohnishi, K., Kanehira, A., Kanezaki, A., & Harada, T. (2016). Recognizing activities of daily living with a wrist-mounted camera. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 3103-3111). [Held & Hein, ‘63] Held, R., & Hein, A. (1963). Movement-produced stimulation in the development of visually guided behavior. Journal of comparative and physiological psychology, 56(5), 872. [Jayaraman & Grauman, ICCV’15] Jayaraman, D., & Grauman, K. (2015). Learning image representations tied to ego-motion. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1413-1421). 104

参考文献（2/6） [Huang+, ECCV’18] Y. Huang, M. Cai, Z. Li and
Y. Sato, "Predicting Gaze in Egocentric Video by Learning Task-dependent Attention Transition," European Conference on Computer Vision (ECCV), 2018. [Zhou+, CVPR’17] Zhou, T., Brown, M., Snavely, N., & Lowe, D. G. (2017). Unsupervised learning of depth and ego-motion from video. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1851-1858). [Zimmermann+, ICCV’17] Zimmermann, C., & Brox, T. (2017). Learning to estimate 3d hand pose from single rgb images. In Proceedings of the IEEE international conference on computer vision (pp. 4903-4911). [Tsukada+, ICCVW’11] Tsukada, A., Shino, M., Devyver, M., & Kanade, T. (2011, November). Illumination-free gaze estimation method for first-person vision wearable device. In 2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops) (pp. 2084-2091). IEEE. [Yarbus, ‘67] Yarbus, A. L. Eye Movements and Vision. Plenum. New York. 1967 (Originally published in Russian 1962) [Huang+, ECCV’18] Huang, Y., Cai, M., Li, Z., & Sato, Y. (2018). Predicting gaze in egocentric video by learning task-dependent attention transition. In Proceedings of the European conference on computer vision (ECCV) (pp. 754-769). [Yang+, CVPR’20] Yang, Z., Huang, L., Chen, Y., Wei, Z., Ahn, S., Zelinsky, G., ... & Hoai, M. (2020). Predicting goal-directed human attention using inverse reinforcement learning. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 193-202). [Nishiyasu+, CVPRW’24] Takumi Nishiyasu and Yoichi Sato. Gaze Scanpath Transformer: Predicting Visual Search Target by Spatiotemporal Semantic Modeling of Gaze Scanpath. 6th international workshop on gaze estimation and prediction in the wild in conjunction with CVPR2024. 2024. [Poleg+, ACCV’14] Poleg, Y., Arora, C., & Peleg, S. (2015). Head motion signatures from egocentric videos. In Computer Vision--ACCV 2014: 12th Asian Conference on Computer Vision, Singapore, Singapore, November 1-5, 2014, Revised Selected Papers, Part III 12 (pp. 315-329). Springer International Publishing. [Bandini+, PAMI’20] Bandini, A., & Zariffa, J. (2020). Analysis of the hands in egocentric vision: A survey. IEEE transactions on pattern analysis and machine intelligence, 45(6), 6846-6866. [Mueller+, CVPR'18] Mueller, F., Bernard, F., Sotnychenko, O., Mehta, D., Sridhar, S., Casas, D., & Theobalt, C. (2018). Ganerated hands for real-time 3d hand tracking from monocular rgb. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 49-59). [Banerjee+, CVPR'25] Banerjee, P., Shkodrani, S., Moulon, P., Hampali, S., Han, S., Zhang, F., ... & Hodan, T. (2025). Hot3d: Hand and object tracking in 3d from egocentric multi-view videos. In Proceedings of the Computer Vision and Pattern Recognition Conference (pp. 7061-7071). 105

参考文献（3/6） [Li+, CVPR’23] Li, J., Liu, K., & Wu, J.
(2023). Ego-body pose estimation via ego-head pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 17142-17151). [Grauman+, CVPR’22] Grauman, K., Westbury, A., Byrne, E., Chavis, Z., Furnari, A., Girdhar, R., ... & Malik, J. (2022). Ego4d: Around the world in 3,000 hours of egocentric video. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 18995-19012). [Lee+, CVPR'25] Lee, J., Xu, W., Richard, A., Wei, S. E., Saito, S., Bai, S., ... & Saragih, J. (2025). REWIND: Real-Time Egocentric Whole-Body Motion Diffusion with Exemplar-Based Identity Conditioning. In Proceedings of the Computer Vision and Pattern Recognition Conference (pp. 7095-7104). [Wang+, CVPR'25] Wang, J., Dabral, R., Luvizon, D., Cao, Z., Liu, L., Beeler, T., & Theobalt, C. (2025). Ego4o: Egocentric Human Motion Capture and Understanding from Multi-Modal Input. In Proceedings of the Computer Vision and Pattern Recognition Conference (pp. 22668-22679). [Zhang+. UIST’17] Zhang, X., Sugano, Y., & Bulling, A. (2017, October). Everyday eye contact detection using unsupervised gaze target discovery. In Proceedings of the 30th annual ACM symposium on user interface software and technology (pp. 193-203). [Cheng+, NeurIPS’23] Cheng, T., Shan, D., Hassen, A., Higgins, R., & Fouhey, D. (2023). Towards a richer 2d understanding of hands at scale. Advances in Neural Information Processing Systems, 36, 30453-30465. [Tang+, NeurIPS'23 D&B] Tang, H., Liang, K. J., Grauman, K., Feiszli, M., & Wang, W. (2023). Egotracks: A long-term egocentric visual object tracking dataset. Advances in Neural Information Processing Systems, 36, 75716-75739. [Yagi+, IUI’21] Yagi, T., Nishiyasu, T., Kawasaki, K., Matsuki, M., & Sato, Y. (2021, April). GO-finder: a registration-free wearable system for assisting users in finding lost objects via hand-held object discovery. In 26th International Conference on Intelligent User Interfaces (pp. 139-149). [Song+, NeurIPS'23] Song, Y., Byrne, E., Nagarajan, T., Wang, H., Martin, M., & Torresani, L. (2023). Ego4d goal-step: Toward hierarchical understanding of procedural activities. Advances in Neural Information Processing Systems, 36, 38863-38886. 106

参考文献（4/6） [Damen+, ECCV’18] Damen, D., Doughty, H., Farinella, G. M.,
Fidler, S., Furnari, A., Kazakos, E., ... & Wray, M. (2018). Scaling egocentric vision: The epic- kitchens dataset. In Proceedings of the European conference on computer vision (ECCV) (pp. 720-736). [Damen+, IJCV’22] Damen, D., Doughty, H., Farinella, G. M., Furnari, A., Kazakos, E., Ma, J., ... & Wray, M. (2022). Rescaling egocentric vision: Collection, pipeline and challenges for epic-kitchens-100. International Journal of Computer Vision, 1-23. [Grauman+, CVPR’24] Grauman, K., Westbury, A., Torresani, L., Kitani, K., Malik, J., Afouras, T., ... & Wray, M. (2023). Ego-exo4d: Understanding skilled human activity from first-and third-person perspectives. CVPR 2024. [Darkhalil+, NeurIPS’22] Darkhalil, A., Shan, D., Zhu, B., Ma, J., Kar, A., Higgins, R., ... & Damen, D. (2022). Epic-kitchens visor benchmark: Video segmentations and object relations. Advances in Neural Information Processing Systems, 35, 13745-13758. [Huh+ ICASSP’23] Huh, J., Chalk, J., Kazakos, E., Damen, D., & Zisserman, A. (2023, June). Epic-sounds: A large-scale dataset of actions that sound. In ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 1-5). IEEE. [Grauman+, CVPR'24] Grauman, K., Westbury, A., Torresani, L., Kitani, K., Malik, J., Afouras, T., ... & Wray, M. (2024). Ego-exo4d: Understanding skilled human activity from first-and third-person perspectives. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 19383-19400). [Ashutosh+, CVPR'25] Ashutosh, K., Nagarajan, T., Pavlakos, G., Kitani, K., & Grauman, K. (2025). ExpertAF: Expert actionable feedback from video. In Proceedings of the Computer Vision and Pattern Recognition Conference (pp. 13582-13594). [Perett+, CVPR'25] Perrett, T., Darkhalil, A., Sinha, S., Emara, O., Pollard, S., Parida, K. K., ... & Damen, D. (2025). Hd-epic: A highly-detailed egocentric video dataset. In Proceedings of the Computer Vision and Pattern Recognition Conference (pp. 23901-23913). [Sener+, CVPR’22] Sener, F., Chatterjee, D., Shelepov, D., He, K., Singhania, D., Wang, R., & Yao, A. (2022). Assembly101: A large-scale multi-view video dataset for understanding procedural activities. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 21096- 21106). [Mangalam+, NeurIPS’24] Mangalam, K., Akshulakov, R., & Malik, J. (2024). Egoschema: A diagnostic benchmark for very long-form video language understanding. Advances in Neural Information Processing Systems, 36. [Ye+, ICLR'25] Ye, H., Zhang, H., Daxberger, E., Chen, L., Lin, Z., Li, Y., ... & Yang, Y. MMEgo: Towards Building Egocentric Multimodal LLMs for Video QA. In The Thirteenth International Conference on Learning Representations. 107

参考文献（5/6） [Pan+, ICCV'23] Pan, X., Charron, N., Yang, Y., Peters,
S., Whelan, T., Kong, C., ... & Ren, Y. C. (2023). Aria digital twin: A new benchmark dataset for egocentric 3d machine perception. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 20133-20143). [Zhao+, CVPR’23] Zhao, Y., Misra, I., Krähenbühl, P., & Girdhar, R. (2023). Learning video representations from large language models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 6586-6597). [Li+, CVPR’24] Li, G., Zhao, K., Zhang, S., Lyu, X., Dusmanu, M., Zhang, Y., ... & Tang, S. (2024). EgoGen: An Egocentric Synthetic Data Generator. CVPR2024. [Wang+, ICCV'23] Wang, X., Kwon, T., Rad, M., Pan, B., Chakraborty, I., Andrist, S., ... & Pollefeys, M. (2023). Holoassist: an egocentric human interaction dataset for interactive ai assistants in the real world. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 20270-20281). [Ma+, ECCV'24] Ma, L., Ye, Y., Hong, F., Guzov, V., Jiang, Y., Postyeni, R., ... & Newcombe, R. (2024, September). Nymeria: A massive collection of multimodal egocentric daily motion in the wild. In European Conference on Computer Vision (pp. 445-465). Cham: Springer Nature Switzerland. [Zhou+, CVPR'25] Zhou, S., Xiao, J., Li, Q., Li, Y., Yang, X., Guo, D., ... & Yao, A. (2025). Egotextvqa: Towards egocentric scene-text aware video question answering. In Proceedings of the Computer Vision and Pattern Recognition Conference (pp. 3363-3373). [Tateno+, MIRU'25] Tateno, M., Kato, G., Hara, K., Kataoka, H., Sato, Y., and Yagi, T. (2025). HanDyVQA: A Video QA Benchmark for Fine-Grained Hand- Object Interaction Dynamics., 画像の認識・理解シンポジウム. [Lin+, NeurIPS’22] Lin, K. Q., Wang, J., Soldan, M., Wray, M., Yan, R., Xu, E. Z., ... & Shou, M. Z. (2022). Egocentric video-language pretraining. Advances in Neural Information Processing Systems, 35, 7575-7586. [Zhao+, CVPR’23] Zhao, Y., Misra, I., Krähenbühl, P., & Girdhar, R. (2023). Learning video representations from large language models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 6586-6597). [Hong+, CVPR'25] Hong, F., Guzov, V., Kim, H. J., Ye, Y., Newcombe, R., Liu, Z., & Ma, L. (2025). Egolm: Multi-modal language model of egocentric motions. In Proceedings of the Computer Vision and Pattern Recognition Conference (pp. 5344-5354). 108

参考文献（6/6） [Kamikubo+, CHI'25] Kamikubo, R., Kayukawa, S., Kaniwa, Y., Wang,
A., Kacorri, H., Takagi, H., & Asakawa, C. (2025, April). Beyond Omakase: Designing Shared Control for Navigation Robots with Blind People. In Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems (pp. 1-17). [Stanescu+, ISMAR’23] Stanescu, A., Mohr, P., Kozinski, M., Mori, S., Schmalstieg, D., & Kalkofen, D. (2023, October). State-Aware Configuration Detection for Augmented Reality Step-by-Step Tutorials. In 2023 IEEE International Symposium on Mixed and Augmented Reality (ISMAR) (pp. 157-166). IEEE. [Yagi+, IJCV'25] Yagi, T., Ohashi, M., Huang, Y., Furuta, R., Adachi, S., Mitsuyama, T., & Sato, Y. (2025). FineBio: a fine-grained video dataset of biological experiments with hierarchical annotation. International Journal of Computer Vision, 1-16. [Nair+, CoRL’22] Nair, S., Rajeswaran, A., Kumar, V., Finn, C., & Gupta, A. (2022, August). R3M: A Universal Visual Representation for Robot Manipulation. In 6th Annual Conference on Robot Learning. [Kareer+, ArXiv'24] Kareer, S., Patel, D., Punamiya, R., Mathur, P., Cheng, S., Wang, C., ... & Xu, D. (2024). Egomimic: Scaling imitation learning via egocentric video. arXiv preprint arXiv:2410.24221. [Shi+, ICRA‘25] Shi, J., Zhao, Z., Wang, T., Pedroza, I., Luo, A., Wang, J., ... & Jayaraman, D. (2025). ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos, ICRA. [Yang+, Arxiv’25] Yang, R., Yu, Q., Wu, Y., Yan, R., Li, B., Cheng, A. C., ... & Wang, X. (2025). EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos. arXiv preprint arXiv:2507.12440. [Luo+, ArXiv’25] Luo, H., Feng, Y., Zhang, W., Zheng, S., Wang, Y., Yuan, H., ... & Lu, Z. (2025). Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos. arXiv preprint arXiv:2507.15597. [Bahl+, CVPR'23] Bahl, S., Mendonca, R., Chen, L., Jain, U., & Pathak, D. (2023). Affordances from human videos as a versatile representation for robotics. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 13778-13790). [Hoque+, ArXiv'25] Hoque, R., Huang, P., Yoon, D. J., Sivapurapu, M., & Zhang, J. (2025). EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video. arXiv preprint arXiv:2505.11709. [Singh+, WACV’16] Singh, K. K., Fatahalian, K., & Efros, A. A. (2016, March). Krishnacam: Using a longitudinal, single-person, egocentric dataset for scene understanding tasks. In 2016 IEEE Winter Conference on Applications of Computer Vision (WACV) (pp. 1-9). IEEE. [Yang+, CVPR'25] Yang, J., Liu, S., Guo, H., Dong, Y., Zhang, X., Zhang, S., ... & Liu, Z. (2025). Egolife: Towards egocentric life assistant. In Proceedings of the Computer Vision and Pattern Recognition Conference (pp. 28885-28900). [Chatterjee+, ICCV’25] Chatterjee, D., Remelli, E., Song, Y., Tekin, B., Mittal, A., Bhatnagar, B., ... & Sener, F. (2025). Memory-efficient Streaming VideoLLMs for Real-time Procedural Video Understanding. ICCV. 109

一人称視点映像解析の最先端（MIRU2025 チュートリアル）

一人称視点映像解析の最先端（MIRU2025 チュートリアル）

More Decks by Takuma Yagi

Other Decks in Research

Featured

Transcript