Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Moto: Latent Motion Token as the Bridging Langu...

Avatar for peisuke peisuke
November 15, 2025

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos

第65回 コンピュータビジョン勉強会@関東「ICCV2025読み会」

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos
author: Y. Chen, et al.

Avatar for peisuke

peisuke

November 15, 2025
Tweet

More Decks by peisuke

Other Decks in Technology

Transcript

  1. BVUIPS:J$IFO FUBM QSFTFOUFS!QFJTVLF Moto: Latent Motion Token as the Bridging

    Language for Learning Robot Manipulation from Videos 第65回 コンピュータビジョン勉強会@関東 ICCV2025読み会
  2. ⾃⼰紹介 藤本 敬介 ABEJA CEO室/Labs ラボ⻑ ▷ 経歴 2010-2016:⽇⽴製作所 2016-:ABEJA

    ▷ SNS X:@peisuke github:@peisuke Qiita:peisuke ▷ 著書 ディープラーニングG検定公式テキスト AI⽩書2023, 2025
  3. 論⽂の概要 • ⽬的 • VLAにおける事前学習モデルの構築時に必要であった制御情報を不 要化、低コストでのロボット制御学習を実現 • 貢献 • Latent

    Motion Tokenizerで教師なしでの動作のトークナイズ • Moto-GPTでトークナイズした動作に関する事前モデル作成 • Finetuningによる実ロボット制御への転⽤ • 結果 • 実ロボット制御において⼤規模モデルに匹敵する性能を達成
  4. Finetuningのプロセス詳細 • Attentionの⼯夫 • 動作予測には、過去の動作トークン情報のみ必要、動作トー クンからAction Query Tokenへのアテンションはマスク • Action

    Query Tokenから動作トークンへのアテンションを半 分程度ランダムにマスクすると過学習せず安定した • Finetuning中にも制御のみでなく動作トークンの予測 についても学習
  5. 学習データ • SIMPLER • Open-X-Embodiment (OXE)のサブセットである109k個の動 画で事前学習 • RT-1 Robot-ActionσʔληοτΛར༻ɺ73kݸͷΞΫγϣϯ

    ϥϕϧ෇͖σʔλͰFinetuning • CALVIN • 18k個の動画で事前学習‧Finetuningをそれぞれ実施 • 実環境 • Finetuningでは30個 x 3タスクのデータをテレオペで収集
  6. • 計算リソース(VRAM) • LMT:40GB x 4枚 • Moto-GPT :40GB x

    8枚 • Finetuning :40GB x 4枚 • 学習量 • SIMPLER • 350k iteration (LMT)、10epoch(Moto-GPT) • CALVIN • 150 iteration (LMT)、18 epoch (Moto-GPT) • 実環境 • 500iteration (LMT、SIMPLERのモデルに追加) • 5epoch (Moto-GPT、SIMPLERのモデルに追加) 計算環境‧モデル
  7. 実験内容 • 解釈性 • Latent Motion Tokenizerが効率よくトークナイズできてるか • 予測性 •

    Moto-GPTが事前学習ちゃんと出来てるか • 性能 • Finetuningでロボットがちゃんと動けるか