Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

[Journal club] Focusing on What Matters: Object...

[Journal club] Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action Models

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室 髙木裕輔 Focusing on What Matters: Object-Agent-centric Tokenization for

    Vision Language Action Models Rokas Bendikas1, Daniel Dijkman2, Markus Peschl2, Sanjay Haresh2, Pietro Mazzaglia2 1Centre for Artificial Intelligence, UCL, 2Qualcomm AI Research Bendikas, R., Dijkman, D., Peschl, M., Haresh, S., & Mazzaglia, P. Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action models. In 9th Annual Conference on Robot Learning. CoRL 2025
  2. 2 概要 背景 ✓ 近年のVLAは大規模なロボットデータによる事前訓練などを要し、訓練コスト大 ✓ 既存手法では多量の画像トークンをLLMに入力することが計算のボトルネック 提案 ✓ モデルの性能低下なしにLLMに入力する画像トークンの数を大幅に削減するOat-VLA

    ✓ 画像全体の情報を効率的に圧縮した: object-centric tokens ✓ エンドエフェクタの周囲に対する高解像度の情報を保持する: agent-centric tokens 結果 ✓ LIBEROベンチマークを用いたOpenVLAとの比較において、性能はわずかに上回り、 収束速度は実時間・ステップ数の両観点で2倍高速化 ✓ 実世界におけるpick and placeタスクにおいてOpenVLAを上回る成功率 2
  3. 3 背景: VLAの訓練は計算コストが非常に大きい 3 ◼ VLAは事前学習済みLLM, VLMをロボット操作に応用する強力な手法 ◼ VLAモデルの訓練にはOpen X-Embodiment等の大規模なロボットデータセット

    を用いることが多く、計算コストが非常に大きい ◼ 特に多量の画像トークンをLLMへ入力することが計算コストのボトルネック OpenVLA [Kim+, 24]
  4. 4 関連研究: VLAを効率化する様々な手法が提案 ◼ 小さなモデルサイズやObject-centricの情報の入力をする研究 手法 詳細 TinyVLA [Wen+, RAL25]

    MiniVLA [Belkhale+, 24] 小さなモデルサイズやdiffusionベースのアクションヘッドを用いたVLA により訓練・推論速度を高速化する手法 DexGraspVLA [Zhong+, 25] Sam2Act [Fang+, 25] SAM (Segment Anything Model) を活用し、Object-centricの情報を VLAに組み込むことで性能向上を図る手法 DexGraspVLA [Zhong+, 25] TinyVLA [Wen+, RAL25]
  5. 5 提案手法: Oat-VLA: LLMの入力トークンを大幅削減 5 ◼ モデルの性能低下なしにLLMに入力する画像トークンの数を削減する Object-Agent-centric Tokenization scheme

    for VLAs (Oat-VLA) ◼ 画像全体の情報を効率的に圧縮した: object-centric tokens ◼ エンドエフェクタの周囲に対する高解像度の情報を保持する: agent-centric tokens object-centric agent-centric
  6. 6 提案手法(1/4):既存手法の問題 + 提案手法の狙い ◼ モデル:観測 ,指示文 から行動 の分布 を学習

    ◼ 画像埋め込み ◼ 言語埋め込み 狙い: モデルの性能低下なしに画像トークン数 𝑲 を大きく削減したい 例: 224 × 224の画像をサイズ14 × 14のパッチに分ければ 𝐾 = 256 ≫ 𝐽  画像トークンの処理がモデルの訓練 のボトルネック 画像エンコーダ
  7. 7 提案手法(2/4):Object-centric tokensの概要 ◼ 場面の理解には画像の全体を見ることが必要  すべてのトークンを入力すると以下のような無駄が多い ◼ タスクと無関係な背景 ◼

    複数のパッチにまたがる物体に対する埋め込み 背景 複数のパッチにまたがる物体 画像全体の情報を効率的に圧縮 →object-centric tokens ◼ 物体検出器を用いて同じ領域に属すると推定された 画像トークン同士をプーリングする
  8. 8 提案手法(3/4):Object-centric tokensの生成方法 ◼ 物体検出器の出力 ◼ 合計 個の物体マスクを生成 ◼ k番目のパッチがn番目の物体のマスクが属するか:

    ◼ 同じ物体に対応する埋め込みをプーリングでまとめる 物体検出器にはFT-Dinosaur [Didolkar, 24] を用いる 物体検出器
  9. 9 提案手法(4/4): Agent-centric tokens ◼ 細やかな物体操作ではエンドエフェクタと物体の関係を捉えることが必要  object-centric tokensでは、プーリングにより物体・エンドエフェクタ の関係性

    (e.g., 接触) の情報が失われる可能性 エンドエフェクタの周囲に対する高解像度の情報を保持する →agent-centric tokens グリッパ検出器にはFaster R-CNN [Ren+, NIPS15] のアーキテクチャを用いる ◼ グリッパ検出器により画像上のグリッパの位置を推定し、 その周囲のパッチに対応する画像トークンを入力
  10. 10 実験設定:LIBEROベンチマークおよび実世界で実験 ◼ トークンの入力個数 ◼ object-centric token: 7個 ◼ agent-centric

    token: 3 x 3 = 9個 例:256個の画像トークンを入力するときに比べて93.75%削減 ◼ ベンチマーク ◼ 実験環境 ◼ H100 x 8 ベンチマーク 詳細 LIBERO spatial(空間関係の理解), object(物体の種類の理解), goal(指示文の理解), 10(長期タスク) 実世界 UFACTORY xArm 6 を使用し、テーブルトップで物体のpick and placeタスクを行う
  11. 11 ☺ GPUメモリ消費量・演算量が減少 定量的結果(1/2): LIBEROベンチマークにおける結果 手法 バッチサイズ 処理速度 Oat-VLA 𝟖

    × 𝟔𝟒 = 𝟓𝟏𝟐 𝟑𝟐𝟎 𝐞𝐱𝐚𝐦𝐩𝐥𝐞𝐬/𝐬 Open VLA 8 × 32 = 256 157 examples/s ☺ わずかにOpenVLAを上回る。 ☺ 高難易度なLIBERO 10では大きく上回る ☺ LoRAでも計算コストが低下、平均の成功率で既存手法を上回る ◼ 全体ファインチューニング ◼ LoRA 手法 バッチサイズ 処理速度 Oat-VLA 𝟖 × 𝟒𝟖 = 𝟑𝟖𝟒 𝟑𝟖𝟒 𝐞𝐱𝐚𝐦𝐩𝐥𝐞𝐬/𝐬 Open VLA 8 × 16 = 128 197 examples/s ※LoRAではFSDPが使用不可なことから全体ファインチューニング時よりも減少
  12. 12 定量的結果(2/2): 実世界のtable-top物体再配置タスクの結果 ◼ テーブルトップ環境で320軌道を操作して収集 ◼ in-distribution tasks ◼ 少なくとも10軌道がデータセットに存在

    ◼ out-of-distribution tasks ◼ 指示文の名詞を入れ替えるなどした 未知のタスク (全体)物体の向きや位置を軽微な変化を加える タスクの例 (a) Place the banana in green bowl (b) Place red cube in the brown bag ☺ 既知タスク・未知タスクともに OpenVLAより高い成功率
  13. 14 まとめ 背景 ✓ 近年のVLAは大規模なロボットデータによる事前訓練などを要し、訓練コスト大 ✓ 既存手法では多量の画像トークンをLLMに入力することが計算のボトルネック 提案 ✓ モデルの性能低下なしにLLMに入力する画像トークンの数を大幅に削減するOat-VLA

    ✓ 画像全体の情報を効率的に圧縮した: object-centric tokens ✓ エンドエフェクタの周囲に対する高解像度の情報を保持する: agent-centric tokens 結果 ✓ LIBEROベンチマークを用いたOpenVLAとの比較において、性能はわずかに上回り、 収束速度は実時間・ステップ数の両観点で2倍高速化 ✓ 実世界におけるpick and placeタスクにおいてOpenVLAを上回る成功率 1