Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SSII2026 [SS1] 作業動画理解 〜基盤モデル時代の応用と課題〜

SSII2026 [SS1] 作業動画理解 〜基盤モデル時代の応用と課題〜

More Decks by 画像センシングシンポジウム

Transcript

  1. 博士(情報学)@京都大学 • 調理台を含む「机上作業」を対象とした画像処理 助教@京都大学 - 物体とのインタラクションを介した人の行動理解(調理ナビ) OMRON SINIC X 株式会社

    Principal Investigator(2024-) 慶應義塾大学(兼任) 訪問准教授 (2025-) 東京大学(兼任) 協力研究員 自己紹介(橋本敦史) 2 https://atsushihashimoto.github.io/cv/ 2013.3 2018.3 2020.11 強烈な証明変動にも頑健な背景差分手法,2012 調理ナビゲーション(2013〜2018) 作業動画⇔教示文書間のVision&Language(2018-2020) 生成AIによる創造性支援Project (2022-2024) ©TEZUKA2023/手塚プロダクション 2025.9 調理ナビゲーション(2020〜2025)
  2. Multimodal LLM (MLLM)とは 3 • テキスト以外も入力できる大規模言語モデル(LLM)のこと。 • 画像入力可能なLLMをLarge Vision-Language Model

    (LVLM), Vision Large Language Model (VLLM), Large Multimodal Model (LMM)などと呼ぶこともある。 • 動画入力可能なLLMを特にVideo LLMと呼ぶ。 • 最近の商用LLMは、多様なモダリティをカバーするようになっている モデル名 開発元 テキスト (入力/出力) 画像 (入力) 音声 (入力/出力) 動画 (入力) GPT-5.1 OpenAI ✓ ✓ ✓ Gemini 3 Pro Google ✓ ✓ ✓ ✓ Claude 3.5 Sonnet Anthropic ✓ ✓ Grok-4.1 xAI ✓ ✓ ✓ ✓
  3. Multimodal LLMの社会応用への取り組み例 4 Prompt to Gemini : キッチンで料理が準備されている以下の動画を視聴し… 準備されている各食材について、以下の一般的な 調理段階ごとの開始時刻と終了時刻を分析してください。

    - 準備 (Preparation): 食材を集める、野菜を切る、ソースを混ぜる、予熱す るなど、食材を加熱する前に行うあらゆるアクションが含まれます。 - 調理 (Cooking): 揚げる、焼く、グリルする、電子レンジにかけるなど、何 らかの方法で食材に熱を加えるプロセスです。また、食材が熱源にかかっ ている最中に行うアクション (裏返す、かき混ぜるなど) も含まれます。 - 盛り付け (Plating): 食材の加熱後に行われるあらゆるアクションが含まれ ます。 提供皿への移動、付け合わせの追加、ソースをかけることなどが例 です。 - 提供 (Serving): 料理人が顧客に料理を手渡す瞬間です。 データを時系列順に、以下の JSON 配列形式で出力してください: {"steps": [{"step": "Preparation", "start": "xx:xx", "end": "xx:xx"}, {"step": "Cooking", "start": "xx:xx", "end": "xx:xx"}]} Google AI Cloud Platform, 2024 https://cloud.google.com/blog/products/ai-machine-learning/use- gemini-to-optimize-restaurant-operations-through-ai-visual-analysis
  4. 準備/加熱/盛り付けの3動作分類は革新的? • 手軽に多様な環境で適用できる • しかし、できないことができるよ うになっている? • 既存技術でも環境ごとの設定ファイ ルだけでできるのでは? •

    場所と動作検出だけで十分? • 3分類より細かくできるのか? Photos by Louis Hansel on Unsplash Licensed under the Unsplash License (https://unsplash.com/license)
  5. 6 FineBio Dataset (CVPR Workshop, 2024) もっと詳細に手順と動画内イベントを対応させたい Step 培養細胞の溶解と回収 1.

    培地を除去する 2. PBSを1mL加える 3. プレートを軽く手で振る 4. PBSを吸引除去する 5. 細胞溶解液を加える 6. プレートを軽く手で振る 7. 細胞溶解液を1.5mLチューブに移す 8. 遠心する 9. 上清を吸引除去する < ステップごとの指示 (Protocol)> <動画>
  6. 7 COM Kitchens Dataset (ours, ECCV2024) Step 1. 湯を沸かす。 2.

    サニーレタスを洗う。 3. トマトをくし形切りにする。 4. 沸騰した湯に卵を入れ、茹でる。 5. カニカマをほぐす。 6. サニーレタスを食べやすい大きさにちぎる。 7. 卵を氷水に移す。 8. レタスを敷き、その上にカニカマとトマト を盛り付ける。 9. 卵の殻をむき、輪切りにして上に乗せる。 10. 和風ドレッシングをかける。 <ステップごとの指示 (Recipe)> <動画> もっと詳細に手順と動画内イベントを対応させたい
  7. 8 作業の背後にあるフロー構造 の記述フォーマットを提案 • 各Ac(Action by chef)は、動作 を表すと同時に、下流ではそ の動作の成果物を表す。 •

    手順の言語記述に対する最も 細かい構造化 Recipe Flow Graph (RFG) (LREC2014, Kyoto Univ.) [LREC2014] Recipe Flow Graph Corpus
  8. CLIP: 視覚言語処理における基盤モデル (ICML2021) 12 • 潜在空間中で,正例ペアを近づけ,負例ペアを遠ざけるよう学習(対照学習) • 正例ペアはWeb上の 画像とキャプションのペア •

    負例ペアはバッチ内の 他のサンプルとの組み合わせ • 500kテキストクエリ • クエリごと,20k画像 • total 10m 個の正例ペア 図はCLIP論文より引用
  9. CLIPにより可能となった多様なZero-shotタスク 13 Side Adapter Network (CVPR2023) Open Vocab. Semantic Segmentation

    Open Vocab. Image Classification (CLIP, ICML2021) Open Vocab. Multiple Object Tracking OVTrack (CVPR2023) Latent Diffusion Model (CVPR2022) Zero-shot image generation
  10. CLIPは世界を大きく変えたが...完璧ではない 15 出典:neural.scratches, "Glossy glass fruit cutting fail compilation ",

    Instagram (2025). https://www.instagram.com/p/DSkuIU_E2b5/ [1, 2] ※ Google Veo 3 リリース(2025年5月)以降に流行った AI ASMR ジャンルの典型例。同アカウントは他投稿で Google Veo 2 / Veo 3 の使用を明示している。 各フレーム単独ではクオリティが高い。 行動による状態変化の因果関係は破綻。
  11. モデルや静止画/動画を問わず、状態変化の表現は不十分 16 Vidu Q1 Runway Gen-4 Hailuo AI Google Veo

    2 GPT-4oの誤認識例 動画の出典: GENEL, note (2025/4/27) https://note.com/genel/n/n0ddd3a938ccd
  12. MLLMの作業理解ベンチマーキング[ours] S. Takashige et al., “Benchmarking MLLMs on Mistake Recognition

    and Explanation in Single-Step Components of Cooking”, TBA, 2026 指示文と作業映像の一致判定課題
  13. CLIPの課題: 構成性の理解 CREPE (CVPR2023) Compositionality (構成性) • 文や画像は複数の基本概念を組み合わせ て複雑な概念を表す。 •

    CLIPなどのVLMは組み合わせにより構成 される概念を扱うことが難しい。 構成性を評価するCREPE dataset 1. Systematicity (空間的な関係) 2. Productivity (物体の状態)
  14. CLIPの課題: 構成性の理解 CREPE (CVPR2023) CREPE Benchmark • ある画像に対して、対応する文(Positive)と、 一部を入れ替えたHard Negativeを用意する。

    • Positiveと最も近くなるかどうかをテスト。 Productivity • 「物体×状態」からなる概念 • 例: "Browned Crepe” 画像側入力 Positiveの文 Hard Negativeの文
  15. 物体の状態変化を十分に捉えられていない 20 Linear Spaces of Meanings: Compositional Structures in Vision-Language

    Models, ICCV2023 CLIPの共有潜在空間をPCAで3次元 化 → 属性 x 物体 をプロット - 属性: {red, blue, pink} - 物体: {car, house} 最上段: Stable Diffusionで出力した”green house” 2段目以降: 上述の線形性を利用して a photo of [color] x [object] で生成したもの →色などの表層的な「状態/属性」はCLIPでOK 質的な違いを表す状態/属性まで扱えれば嬉しい
  16. CLIPの改良とその難しさ 21 • CLIPの改良事例 OpenCLIP, SigLIP, SigLIPv2など • 対照学習の学習効率を上げたい →

    類似度を捨てSigmoidによる同一性判定へ。 • 大量の画像-テキストペアで学習するために... • 計算効率が高くないと同じ学習時間に対して性能が下がる。 → 計算効率を維持しながらCompositionalityを上げないと実用性がない。 • 結果的に、現状のCLIPをLLMなどと組み合わせることで Compositionalityは無視してMultimodal LLMが作られているのが現状
  17. Multimodal Procedural Planning [ECCV 2020] [ECCV 2020] CY Chang et

    al., “Procedure Planning in Instructional Videos”
  18. VG-TVP [AAAI2025] / 手順書と動画をペアで生成 課題: 生成動画の質 [AAAI2025] MF. Ilaslan et

    al., “VG-TVP: Multimodal Procedural Planning via Visually Grounded Text-Video Prompting”
  19. Motionの理解も不十分/VLA応用に向けた課題 • Roboticsの世界で言うTask & Motion Planning (TAMP)と対応 Task Plan 1.

    卵に罅を入れる 2. 卵をフライパンに割り入れる 3. キノコを加える … Task Planning Motion Planning Diffusion Policy, RSS2023 https://diffusion-policy.cs.columbia.edu モノを移動したり操作するだけでなく、モノを加工できるVLAはまだ難しい
  20. ViLaIn / ViLaIn-TAMP [ours] K. Shirai et al., “Vision-Language Interpreter

    for Robot Task Planning”, ICRA2024 J. Siburian, K. Shirai et al., “Grounded Vision-Language Interpreter for Integrated Task and Motion Planning”, CoRL2025 Workshop 課題: Motion Plannerは 作り込みが必要
  21. CrossTask 作業動画データセット(アノテーションがあるもの) 26 未編集 編集済 Egocentric Exocentric Fixed-view Others Cooking

    Assemb. Bio. Exp. MECCANO FineBio BioVL2 YouCook2 COM Kitchens Assembly101 MMAC MPII ACE 50 salads Breakfast IKEA ASM Visual Recipe Flow ProBio Others YouMakeup ProceL CrossTask Task Domains * Dataset w/o annotations (=for pretraining): HowTo100M / YT-Temporal-1B (both are edited exocentric videos) GTEA series
  22. Egocentric-10K dataset (build.ai, 2025/10/23) 29 https://huggingface.co/datasets/builddotai/Egocentric-10K 実際の工場などでの組み立て作業 10,000時間分の一人称視点映像 アノテーションは評価データのみ。 ただし、Gemini

    2.5 Flashによる自動生成 で「何か操作している/していないの判定」程 度のもの。 ただし、倫理的な配慮がなされているか不明 なため、利用は慎重になる必要がある。 (他人の映り込みや作業者本人の同意の有無)
  23. 自然言語との対応付け ( はフロー構造あり) 30 未編集 編集済み Egocentric Exocentric Fixed-view Others

    BioVL2 YouCook2 COM Kitchens EPIC Kitchens MMAC Visual Recipe Flow ProBio YouMakeup * Dataset w/o annotations (=for pretraining): HowTo100M / YT-Temporal-1B (both are edited exocentric videos) CrossTask MECCANO FineBio Assembly101 MPII ACE 50 salads Breakfast IKEA ASM ProceL CrossTask GTEA series Linguistic Annotation Type Categorical Ours: ECCV2024 Ours: LREC2022 Ours: ICCVW 2021
  24. COM Kitchens Dataset [ours] Visual Action Graph を145本の動画に付与 (計40時間, 84家庭のキッチン).

    31 “Shredded dried squid” “Kimchi” “tear by hand into small pieces.” “Cut kimchi with scissors,” “add to the squid, and” 02:31 02:44 05:14 07:02 08:09 08:10 09:44 “mix.” “white sesame” 10:00 10:16 10:23 10:29 10:41 10:45 11:42 12:03 “Add shredded dried squid to a bowl and” “top with white sesame.” Before After Dest. “Ingredient” Graph Structure “Action” “Brown sugar” 02:16 “Add brown sugar,” “mix, and” Ready to eat! Cooking starts. [ours] K. Maeda & T. Hirasawa, “COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark”, ECCV2024 VAGは動画をHOI単位のTask/Motionに分割→自動抽出によるデータ収集が鍵になる?