SSII2026 [SS1] 作業動画理解〜基盤モデル時代の応用と課題〜

作業動画理解〜基盤モデル時代の応用と課題〜 2026.6.11 SS1 (14:15-14:45) 橋本敦史（オムロンサイニックエックス）

博士(情報学)@京都大学 • 調理台を含む「机上作業」を対象とした画像処理助教@京都大学 - 物体とのインタラクションを介した人の行動理解（調理ナビ） OMRON SINIC X 株式会社
Principal Investigator(2024-) 慶應義塾大学（兼任）訪問准教授 (2025-) 東京大学（兼任）協力研究員自己紹介（橋本敦史） 2 https://atsushihashimoto.github.io/cv/ 2013.3 2018.3 2020.11 強烈な証明変動にも頑健な背景差分手法,2012 調理ナビゲーション(2013〜2018) 作業動画⇔教示文書間のVision&Language(2018-2020) 生成AIによる創造性支援Project (2022-2024) ©TEZUKA2023/手塚プロダクション 2025.9 調理ナビゲーション(2020〜2025)

Multimodal LLM (MLLM)とは 3 • テキスト以外も入力できる大規模言語モデル（LLM）のこと。 • 画像入力可能なLLMをLarge Vision-Language Model
(LVLM), Vision Large Language Model (VLLM), Large Multimodal Model (LMM)などと呼ぶこともある。 • 動画入力可能なLLMを特にVideo LLMと呼ぶ。 • 最近の商用LLMは、多様なモダリティをカバーするようになっているモデル名開発元テキスト (入力/出力) 画像 (入力) 音声 (入力/出力) 動画 (入力) GPT-5.1 OpenAI ✓ ✓ ✓ Gemini 3 Pro Google ✓ ✓ ✓ ✓ Claude 3.5 Sonnet Anthropic ✓ ✓ Grok-4.1 xAI ✓ ✓ ✓ ✓

Multimodal LLMの社会応用への取り組み例 4 Prompt to Gemini : キッチンで料理が準備されている以下の動画を視聴し… 準備されている各食材について、以下の一般的な調理段階ごとの開始時刻と終了時刻を分析してください。
- 準備 (Preparation): 食材を集める、野菜を切る、ソースを混ぜる、予熱するなど、食材を加熱する前に行うあらゆるアクションが含まれます。 - 調理 (Cooking): 揚げる、焼く、グリルする、電子レンジにかけるなど、何らかの方法で食材に熱を加えるプロセスです。また、食材が熱源にかかっている最中に行うアクション (裏返す、かき混ぜるなど) も含まれます。 - 盛り付け (Plating): 食材の加熱後に行われるあらゆるアクションが含まれます。提供皿への移動、付け合わせの追加、ソースをかけることなどが例です。 - 提供 (Serving): 料理人が顧客に料理を手渡す瞬間です。データを時系列順に、以下の JSON 配列形式で出力してください: {"steps": [{"step": "Preparation", "start": "xx:xx", "end": "xx:xx"}, {"step": "Cooking", "start": "xx:xx", "end": "xx:xx"}]} Google AI Cloud Platform, 2024 https://cloud.google.com/blog/products/ai-machine-learning/use- gemini-to-optimize-restaurant-operations-through-ai-visual-analysis

準備/加熱/盛り付けの3動作分類は革新的？ • 手軽に多様な環境で適用できる • しかし、できないことができるようになっている？ • 既存技術でも環境ごとの設定ファイルだけでできるのでは？ •
場所と動作検出だけで十分？ • 3分類より細かくできるのか？ Photos by Louis Hansel on Unsplash Licensed under the Unsplash License (https://unsplash.com/license)

6 FineBio Dataset (CVPR Workshop, 2024) もっと詳細に手順と動画内イベントを対応させたい Step 培養細胞の溶解と回収 1.
培地を除去する 2. PBSを1mL加える 3. プレートを軽く手で振る 4. PBSを吸引除去する 5. 細胞溶解液を加える 6. プレートを軽く手で振る 7. 細胞溶解液を1.5mLチューブに移す 8. 遠心する 9. 上清を吸引除去する < ステップごとの指示 (Protocol)> <動画>

7 COM Kitchens Dataset (ours, ECCV2024) Step 1. 湯を沸かす。 2.
サニーレタスを洗う。 3. トマトをくし形切りにする。 4. 沸騰した湯に卵を入れ、茹でる。 5. カニカマをほぐす。 6. サニーレタスを食べやすい大きさにちぎる。 7. 卵を氷水に移す。 8. レタスを敷き、その上にカニカマとトマトを盛り付ける。 9. 卵の殻をむき、輪切りにして上に乗せる。 10. 和風ドレッシングをかける。 <ステップごとの指示 (Recipe)> <動画> もっと詳細に手順と動画内イベントを対応させたい

8 作業の背後にあるフロー構造の記述フォーマットを提案 • 各Ac(Action by chef)は、動作を表すと同時に、下流ではその動作の成果物を表す。 •
手順の言語記述に対する最も細かい構造化 Recipe Flow Graph (RFG) (LREC2014, Kyoto Univ.) [LREC2014] Recipe Flow Graph Corpus

なぜ手順を計算機に理解させたいのか？ 9 1. 計算機を介した人から人への技能伝達（時間や空間を超える）

なぜ手順を計算機に理解させたいのか？ 10 1. 計算機を介した人から人への技能伝達（時間や空間を超える） 2. 製造過程における人と機械の協働

なぜ手順を計算機に理解させたいのか？ 11 1. 計算機を介した人から人への技能伝達（時間や空間を超える） 2. 製造過程における人と機械の協働 3. あらゆる製造タスクの自動化 nature synthesis
Volume 2 Issue 6, June 2023 IEEE Spectrum, 31 Jul. 2023 “Boston Dynamics’ Founder on the Future of Robotics”

CLIP: 視覚言語処理における基盤モデル (ICML2021) 12 • 潜在空間中で，正例ペアを近づけ，負例ペアを遠ざけるよう学習（対照学習） • 正例ペアはWeb上の画像とキャプションのペア •
負例ペアはバッチ内の他のサンプルとの組み合わせ • 500kテキストクエリ • クエリごと，20k画像 • total 10m 個の正例ペア図はCLIP論文より引用

CLIPにより可能となった多様なZero-shotタスク 13 Side Adapter Network (CVPR2023) Open Vocab. Semantic Segmentation
Open Vocab. Image Classification (CLIP, ICML2021) Open Vocab. Multiple Object Tracking OVTrack (CVPR2023) Latent Diffusion Model (CVPR2022) Zero-shot image generation

CLIPは世界を大きく変えたが...完璧ではない 14 出典: @interesting_aIl, X, 2025年9月25日投稿 https://x.com/interesting_aIl/status/1971070227765956861 ※ 本投稿は転載と見られる。元クリエイターは特定できず。 ※
AI生成動画の不自然さを示す例として参照。 Which one is AI? (出典:SNS上のAI vs Realより)

CLIPは世界を大きく変えたが...完璧ではない 15 出典：neural.scratches, "Glossy glass fruit cutting fail compilation ",
Instagram (2025). https://www.instagram.com/p/DSkuIU_E2b5/ [1, 2] ※ Google Veo 3 リリース（2025年5月）以降に流行った AI ASMR ジャンルの典型例。同アカウントは他投稿で Google Veo 2 / Veo 3 の使用を明示している。各フレーム単独ではクオリティが高い。行動による状態変化の因果関係は破綻。

モデルや静止画/動画を問わず、状態変化の表現は不十分 16 Vidu Q1 Runway Gen-4 Hailuo AI Google Veo
2 GPT-4oの誤認識例動画の出典: GENEL, note (2025/4/27) https://note.com/genel/n/n0ddd3a938ccd

MLLMの作業理解ベンチマーキング[ours] S. Takashige et al., “Benchmarking MLLMs on Mistake Recognition
and Explanation in Single-Step Components of Cooking”, TBA, 2026 指示文と作業映像の一致判定課題

CLIPの課題: 構成性の理解 CREPE (CVPR2023) Compositionality (構成性) • 文や画像は複数の基本概念を組み合わせて複雑な概念を表す。 •
CLIPなどのVLMは組み合わせにより構成される概念を扱うことが難しい。構成性を評価するCREPE dataset 1. Systematicity (空間的な関係) 2. Productivity (物体の状態)

CLIPの課題: 構成性の理解 CREPE (CVPR2023) CREPE Benchmark • ある画像に対して、対応する文(Positive)と、一部を入れ替えたHard Negativeを用意する。
• Positiveと最も近くなるかどうかをテスト。 Productivity • 「物体×状態」からなる概念 • 例: "Browned Crepe” 画像側入力 Positiveの文 Hard Negativeの文

物体の状態変化を十分に捉えられていない 20 Linear Spaces of Meanings: Compositional Structures in Vision-Language
Models, ICCV2023 CLIPの共有潜在空間をPCAで3次元化 → 属性 x 物体をプロット - 属性: {red, blue, pink} - 物体: {car, house} 最上段: Stable Diffusionで出力した”green house” 2段目以降: 上述の線形性を利用して a photo of [color] x [object] で生成したもの →色などの表層的な「状態/属性」はCLIPでOK 質的な違いを表す状態/属性まで扱えれば嬉しい

CLIPの改良とその難しさ 21 • CLIPの改良事例 OpenCLIP, SigLIP, SigLIPv2など • 対照学習の学習効率を上げたい →
類似度を捨てSigmoidによる同一性判定へ。 • 大量の画像-テキストペアで学習するために... • 計算効率が高くないと同じ学習時間に対して性能が下がる。 → 計算効率を維持しながらCompositionalityを上げないと実用性がない。 • 結果的に、現状のCLIPをLLMなどと組み合わせることで Compositionalityは無視してMultimodal LLMが作られているのが現状

Multimodal Procedural Planning [ECCV 2020] [ECCV 2020] CY Chang et
al., “Procedure Planning in Instructional Videos”

VG-TVP [AAAI2025] / 手順書と動画をペアで生成課題: 生成動画の質 [AAAI2025] MF. Ilaslan et
al., “VG-TVP: Multimodal Procedural Planning via Visually Grounded Text-Video Prompting”

Motionの理解も不十分/VLA応用に向けた課題 • Roboticsの世界で言うTask & Motion Planning (TAMP)と対応 Task Plan 1.
卵に罅を入れる 2. 卵をフライパンに割り入れる 3. キノコを加える … Task Planning Motion Planning Diffusion Policy, RSS2023 https://diffusion-policy.cs.columbia.edu モノを移動したり操作するだけでなく、モノを加工できるVLAはまだ難しい

ViLaIn / ViLaIn-TAMP [ours] K. Shirai et al., “Vision-Language Interpreter
for Robot Task Planning”, ICRA2024 J. Siburian, K. Shirai et al., “Grounded Vision-Language Interpreter for Integrated Task and Motion Planning”, CoRL2025 Workshop 課題: Motion Plannerは作り込みが必要

CrossTask 作業動画データセット（アノテーションがあるもの） 26 未編集編集済 Egocentric Exocentric Fixed-view Others Cooking
Assemb. Bio. Exp. MECCANO FineBio BioVL2 YouCook2 COM Kitchens Assembly101 MMAC MPII ACE 50 salads Breakfast IKEA ASM Visual Recipe Flow ProBio Others YouMakeup ProceL CrossTask Task Domains * Dataset w/o annotations (=for pretraining): HowTo100M / YT-Temporal-1B (both are edited exocentric videos) GTEA series

27 Assembly101 (CVPR2022, Meta&NUS)

Assembly101 (CVPR2022, Meta&NUS) 28

Egocentric-10K dataset (build.ai, 2025/10/23) 29 https://huggingface.co/datasets/builddotai/Egocentric-10K 実際の工場などでの組み立て作業 10,000時間分の一人称視点映像アノテーションは評価データのみ。ただし、Gemini
2.5 Flashによる自動生成で「何か操作している/していないの判定」程度のもの。ただし、倫理的な配慮がなされているか不明なため、利用は慎重になる必要がある。 (他人の映り込みや作業者本人の同意の有無）

自然言語との対応付け（はフロー構造あり） 30 未編集編集済み Egocentric Exocentric Fixed-view Others
BioVL2 YouCook2 COM Kitchens EPIC Kitchens MMAC Visual Recipe Flow ProBio YouMakeup * Dataset w/o annotations (=for pretraining): HowTo100M / YT-Temporal-1B (both are edited exocentric videos) CrossTask MECCANO FineBio Assembly101 MPII ACE 50 salads Breakfast IKEA ASM ProceL CrossTask GTEA series Linguistic Annotation Type Categorical Ours: ECCV2024 Ours: LREC2022 Ours: ICCVW 2021

COM Kitchens Dataset [ours] Visual Action Graph を145本の動画に付与 (計40時間, 84家庭のキッチン).
31 “Shredded dried squid” “Kimchi” “tear by hand into small pieces.” “Cut kimchi with scissors,” “add to the squid, and” 02:31 02:44 05:14 07:02 08:09 08:10 09:44 “mix.” “white sesame” 10:00 10:16 10:23 10:29 10:41 10:45 11:42 12:03 “Add shredded dried squid to a bowl and” “top with white sesame.” Before After Dest. “Ingredient” Graph Structure “Action” “Brown sugar” 02:16 “Add brown sugar,” “mix, and” Ready to eat! Cooking starts. [ours] K. Maeda & T. Hirasawa, “COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark”, ECCV2024 VAGは動画をHOI単位のTask/Motionに分割→自動抽出によるデータ収集が鍵になる？

レンタルラボでの3D手技観測(2025/11-12) https://www.krp.co.jp/turnkeylab/lp/ 大阪の施設/セットアップ後、 2日間のみ常駐施設利用者向けの掲示 FastLabel社協力のもと、ワールドインテックさま（ライフサイエンス系人材派遣）、ターンキーラボ建都（レンタルラボ）さまと連携

まとめ現状のMLLMは物体の状態変化を正しく理解していない MLLMの実社会応用事例は作業の分割単位が粗い（準備/加熱/盛り付け）作業を細かく分割整理し、 VLAへの応用や動画生成による人への教示へ繋げたい
作業映像からの Visual Action Graphの自動抽出によるデータ蓄積 → State-aware CLIPの実現【現状】【理想】【課題】

SSII2026 [SS1] 作業動画理解〜基盤モデル時代の応用と課題〜

SSII2026 [SS1] 作業動画理解〜基盤モデル時代の応用と課題〜

画像センシングシンポジウム PRO

More Decks by 画像センシングシンポジウム

Featured

Transcript

作業動画理解〜基盤モデル時代の応用と課題〜 2026.6.11 SS1 (14:15-14:45) 橋本敦史（オムロンサイニックエックス）

博士(情報学)@京都大学 • 調理台を含む「机上作業」を対象とした画像処理助教@京都大学 - 物体とのインタラクションを介した人の行動理解（調理ナビ） OMRON SINIC X 株式会社

Multimodal LLM (MLLM)とは 3 • テキスト以外も入力できる大規模言語モデル（LLM）のこと。 • 画像入力可能なLLMをLarge Vision-Language Model

Multimodal LLMの社会応用への取り組み例 4 Prompt to Gemini : キッチンで料理が準備されている以下の動画を視聴し… 準備されている各食材について、以下の一般的な調理段階ごとの開始時刻と終了時刻を分析してください。

準備/加熱/盛り付けの3動作分類は革新的？ • 手軽に多様な環境で適用できる • しかし、できないことができるようになっている？ • 既存技術でも環境ごとの設定ファイルだけでできるのでは？ •

6 FineBio Dataset (CVPR Workshop, 2024) もっと詳細に手順と動画内イベントを対応させたい Step 培養細胞の溶解と回収 1.

7 COM Kitchens Dataset (ours, ECCV2024) Step 1. 湯を沸かす。 2.

8 作業の背後にあるフロー構造の記述フォーマットを提案 • 各Ac(Action by chef)は、動作を表すと同時に、下流ではその動作の成果物を表す。 •

なぜ手順を計算機に理解させたいのか？ 9 1. 計算機を介した人から人への技能伝達（時間や空間を超える）

なぜ手順を計算機に理解させたいのか？ 10 1. 計算機を介した人から人への技能伝達（時間や空間を超える） 2. 製造過程における人と機械の協働

なぜ手順を計算機に理解させたいのか？ 11 1. 計算機を介した人から人への技能伝達（時間や空間を超える） 2. 製造過程における人と機械の協働 3. あらゆる製造タスクの自動化 nature synthesis

CLIP: 視覚言語処理における基盤モデル (ICML2021) 12 • 潜在空間中で，正例ペアを近づけ，負例ペアを遠ざけるよう学習（対照学習） • 正例ペアはWeb上の画像とキャプションのペア •

CLIPにより可能となった多様なZero-shotタスク 13 Side Adapter Network (CVPR2023) Open Vocab. Semantic Segmentation

CLIPは世界を大きく変えたが...完璧ではない 14 出典: @interesting_aIl, X, 2025年9月25日投稿 https://x.com/interesting_aIl/status/1971070227765956861 ※ 本投稿は転載と見られる。元クリエイターは特定できず。 ※

CLIPは世界を大きく変えたが...完璧ではない 15 出典：neural.scratches, "Glossy glass fruit cutting fail compilation ",

モデルや静止画/動画を問わず、状態変化の表現は不十分 16 Vidu Q1 Runway Gen-4 Hailuo AI Google Veo

MLLMの作業理解ベンチマーキング[ours] S. Takashige et al., “Benchmarking MLLMs on Mistake Recognition

CLIPの課題: 構成性の理解 CREPE (CVPR2023) Compositionality (構成性) • 文や画像は複数の基本概念を組み合わせて複雑な概念を表す。 •

CLIPの課題: 構成性の理解 CREPE (CVPR2023) CREPE Benchmark • ある画像に対して、対応する文(Positive)と、一部を入れ替えたHard Negativeを用意する。

物体の状態変化を十分に捉えられていない 20 Linear Spaces of Meanings: Compositional Structures in Vision-Language

CLIPの改良とその難しさ 21 • CLIPの改良事例 OpenCLIP, SigLIP, SigLIPv2など • 対照学習の学習効率を上げたい →

Multimodal Procedural Planning [ECCV 2020] [ECCV 2020] CY Chang et

VG-TVP [AAAI2025] / 手順書と動画をペアで生成課題: 生成動画の質 [AAAI2025] MF. Ilaslan et

Motionの理解も不十分/VLA応用に向けた課題 • Roboticsの世界で言うTask & Motion Planning (TAMP)と対応 Task Plan 1.

ViLaIn / ViLaIn-TAMP [ours] K. Shirai et al., “Vision-Language Interpreter

CrossTask 作業動画データセット（アノテーションがあるもの） 26 未編集編集済 Egocentric Exocentric Fixed-view Others Cooking

27 Assembly101 (CVPR2022, Meta&NUS)

Assembly101 (CVPR2022, Meta&NUS) 28

Egocentric-10K dataset (build.ai, 2025/10/23) 29 https://huggingface.co/datasets/builddotai/Egocentric-10K 実際の工場などでの組み立て作業 10,000時間分の一人称視点映像アノテーションは評価データのみ。ただし、Gemini

自然言語との対応付け（はフロー構造あり） 30 未編集編集済み Egocentric Exocentric Fixed-view Others

COM Kitchens Dataset [ours] Visual Action Graph を145本の動画に付与 (計40時間, 84家庭のキッチン).

まとめ現状のMLLMは物体の状態変化を正しく理解していない MLLMの実社会応用事例は作業の分割単位が粗い（準備/加熱/盛り付け）作業を細かく分割整理し、 VLAへの応用や動画生成による人への教示へ繋げたい

SSII2026 [SS1] 作業動画理解 〜基盤モデル時代の応用と課題〜

SSII2026 [SS1] 作業動画理解 〜基盤モデル時代の応用と課題〜

More Decks by 画像センシングシンポジウム

Featured

Transcript

SSII2026 [SS1] 作業動画理解〜基盤モデル時代の応用と課題〜

SSII2026 [SS1] 作業動画理解〜基盤モデル時代の応用と課題〜