Upgrade to Pro — share decks privately, control downloads, hide ads and more …

テキストからの実世界知能の実現に向けて

Avatar for SUMO.ai SUMO.ai
July 25, 2025

 テキストからの実世界知能の実現に向けて

テキストからの実世界知能の実現に向けて
栗田修平(国立情報学研究所 / 助教)

SUMO.ai #01(2025/07/25)での登壇資料です
https://sumo-ai.connpass.com/event/356533/

大規模言語モデル (LLM) やマルチモーダル言語モデル (MLLM) の発展により、実世界情報をテキスト的に処理する試みが進んでいる。テキスト情報は、人間がもっとも直感的に使用し、学術的な推論から日常的なコミュニケーション、さらにはユーモアやナンセンスまであらゆる分野を網羅して使用されるほぼ唯一のシンボル情報である。加えて、インターネット時代には画像と並んで膨大なテキスト情報を取得しやすい利点が存在する。一方で、実世界情報の表現としては、テキスト情報はあまりにも情報を保存できていない欠点が存在する。このようなテキストの性質を踏まえながら、本講演ではLLMやMLLM技術、LLMエージェント技術等の応用が見込まれる、3D、ロボット基盤モデル、自動運転のようなトピックに横断的に触れ、テキスト情報が果たす役割および応用について議論する。

2019年に自然言語処理の分野で博士取得後に、実世界・物理世界を理解するための自然言語処理を目指して研究を進める。自然言語処理、機械学習、コンピュータビジョン、ロボティクスなど幅広い分野でトップ会議に採択経験あり。博士(情報学)(京都大学)、その後、理研AIP研究員、JSTさきがけ研究員、ニューヨーク大学訪問研究員などを歴任後に2024年より現職。

Avatar for SUMO.ai

SUMO.ai

July 25, 2025
Tweet

Other Decks in Technology

Transcript

  1. ロボット基盤モデルの開発に向けて 2 LLM, VLM 等の進歩により,End2End かつ汎化性能の高い ロボット基盤モデルの開発が盛ん Multi-step な学習 Pre-training:

    Open-X Embodiment Dataset などの大規模データセット Fine-tuning: 利用したいロボット・環境の少量データ → 汎化性能向上には事前学習データセットのサイズと質が重要! Open-source なロボット基盤モデル: OpenVLA [Kim+ CoRL24], Octo [Ghosh+, RSS24], … 大規模なロボットデータセット: Open-X Embodiment Dataset [O’Neill+ ICRA24]
  2. 背景:ロボット教示データ収集の課題 3 従来 人間がロボットアームを直接動かすことで教示する方法や,コントローラを利用した収集 方法がメイン 近年の流れ 効率的なデータ収集フレームワークの開発 - Aloha [Zhao+

    RSS23] - Aloha Mobile [Fu+ CoRL24] - Gello [Wu+ CoRLW23] Aloha [Zhao+ RSS23] Aloha Mobile [Fu+ CoRL24] Gello [Wu+ CoRLW23] 質の高いデータを多く集めるには エキスパートが大人数必要 → 依然として,データセットのスケールは困難 → 効率的なデータ収集の探索
  3. 一人称視点動画を利用したロボット用学習データの収集 4 HD-EPIC [Perrett+ Arxiv25] 作業映像,特に一人称視点動画は物体操 作のための重要な情報源となる 作業映像から物体操作の学習に有用な情報を抽出する Challenge -

    激しい視点変化 - 雑多でノイズの多い日常環境 大規模な一人称視点動画データセット Ego4D [Grauman+ CVPR22] Epic-Kitchens [Daimen+ECCV18] Ego-Exo4D [Grauman+CVPR24] その他 - Assemply101 [Sener+ CVPR22] - HD-EPIC [Perrett+ Arxiv25]
  4. 提案フレームワーク(1/5) 6 流れ (1) Temporal Action Localization (2) Position Sequence

    Extraction (3) Trajectory Projection (4) Rotation Sequence Extraction Ego-Exo4D [Grauman+ CVPR24] データセットか ら,作業者の動作テキストと物体の軌跡のペ アを収集 軌跡:三次元重心位置 とその向きからなる 6 自由度 (6DoF) 物体操作軌跡
  5. 提案フレームワーク(3/5) 8 2D/3D 追跡結果 Reference - SpaTracker [Xiao+ CVPR24] -

    Depth Anything [Yang+ CVPR24] - Grounding-DINO [Liu+ ECCV24] - Segment-Anything [Kirillov+ CVPR23]
  6. 抽出された軌跡の例 11 “Pick up the knife on the countertop with

    his right hand.” 初期状態の点群データ / 物体の 6DoF 姿勢 抽出された軌跡
  7. 実験:言語モデルを利用した軌跡生成 12 課題設定 入力: - 視覚情報(画像・点群) - 動作テキスト - 軌跡の開始点(物体の初期姿勢)

    出力:軌跡 言語モデルベースのモデル構築 ロボット基盤モデル [1, 2] に利用され ている軌跡のトークン化を適用 軌跡のトークン化 1. 軌跡の各要素をN個のビンに区切る 2. 言語モデルのトークナイザにN個の 軌跡用トークンを割り当てる Reference [1] RT-1 [Zitkovich+ CoRL23] [2] OpenVLA [Kim+ CoRL24]
  8. 実験:言語モデルを利用した軌跡生成 13 PointLLM [Xu+ ECCV24] による軌跡生成結果 “Tranfer the wooden spoon

    to the wooden plate with the right hand.” “Stir the bowl with the wooden spoon in the right hand.”
  9. なぜ実世界課題にテキストを利用するのか? • テキスト・シンボルの助けを借りながら 実世界の課題を理解・解決したい • 言語は実世界の情報の圧縮 • つまり、実世界の情報を言語に変換するだけで情報が極端に落ちる 24 a.

    猫 b. 冷たいアスファルトの上に香箱座りをして佇む、 茶白の猫。濃いオレンジ色の縞模様と白い被 毛がくっきりと分かれ、額には炎のような模様 が浮かび上がっている… c. いまから640x480のRGB画像を送ります。まず 最初のドットは(26, 28, 28) です。その右のドット は… cのケース以外では言語から元画像を復元することは不可能 (cは言語化できていないけど…) 画像
  10. なぜ実世界課題にテキストを利用するのか? → そもそもテキスト化は情報損失の繰り返し 25 現実世界 カメラ・マイク センサ・… 画像信号 音信号 力覚信号…

    言語化・抽象化 冷たいアスファルトの上に 香箱座りをして佇む、茶白 の猫。濃いオレンジ色の縞 模様と白い被毛がくっきりと 分かれ、額には炎のような 模様が浮かび上がっている … 𝑓𝑝 すべての実世界情報の信号は現実世界の現象 𝑥 より少ない情報 𝑓𝑝 (𝑥) を持つ さらに通常のテキスト・シンボル情報はそれより少ない情報 𝑓𝑡 ∘ 𝑓𝑝 (𝑥) を持つ 𝑓𝑡 𝑓𝑡 −1 𝑓𝑝 −1 → 実世界タスクでは、テキスト変換は損ばかりなのか……?
  11. テキストはどういう時に実世界課題に有効なのか? 26 (複雑な)物理現象 カメラ・ マイク・ センサ・… 画像情報 音信号 力覚信号… テキスト化・抽象化

    { “name“: “pendulum”, “max velocity”: ”0.5 m/s”, … 𝑓𝑝 ① テキスト指示・編集からの生成 ② テキスト・シンボルの別テキストへの変換や 制約条件へのあてはめなど ③ 外部知識の利用 ④ 実世界情報のユーザーへの説明・記録 𝑓𝑡 𝑓𝑡 −1 𝑓𝑝 −1 別の物理現象 仮想現実など 別の画像情報 別の音信号 別の力覚信号… 𝑔𝑡 −1 ①生成 ② 推論 ④説明・記録 平易な使用から厳密な使用まで テキストが使用される社会領域の 包括さ テキスト・シンボル表現を経由しない生成や指 示も可能であり、一般にテキストよりも保存さ れる情報が多い。しかし、テキストが表現でき る情報の包括性、厳密性にはかなわないだろう ③ テキスト化され 蓄積された知識への アクセス (RAG)
  12. 終わりに – よい研究をするには △ うまく行っているテーマで戦う / まねる (※) → 論文になるころには関連論文がぞくぞく

    △ 論文になりそうな(ニッチな)テーマをひねり出す → 論文になっても後続研究が出ない・応用されづらい ◎ これから意味が出てくる分野に取り組み続ける(※※) → 素直な発想で真面目に新しい分野に挑む 27 ※:世界で一番早く実装できるなら◯ ※※:いまのAI分野では速さも大事 • よい研究は周囲を巻き込んで 新しい価値を生み出していくもの • 言語モデルそのものではなく その周辺分野が研究の中心になっていくだろう 参考: 素人発想、玄人実装(金出先生) 考えるときは素人として素直に、実装するときは玄人として緻密に