[Journal club] Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action Models

慶應義塾大学杉浦孔明研究室髙木裕輔 Focusing on What Matters: Object-Agent-centric Tokenization for
Vision Language Action Models Rokas Bendikas1, Daniel Dijkman2, Markus Peschl2, Sanjay Haresh2, Pietro Mazzaglia2 1Centre for Artificial Intelligence, UCL, 2Qualcomm AI Research Bendikas, R., Dijkman, D., Peschl, M., Haresh, S., & Mazzaglia, P. Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action models. In 9th Annual Conference on Robot Learning. CoRL 2025

2 概要背景 ✓ 近年のVLAは大規模なロボットデータによる事前訓練などを要し、訓練コスト大 ✓ 既存手法では多量の画像トークンをLLMに入力することが計算のボトルネック提案 ✓ モデルの性能低下なしにLLMに入力する画像トークンの数を大幅に削減するOat-VLA
✓ 画像全体の情報を効率的に圧縮した: object-centric tokens ✓ エンドエフェクタの周囲に対する高解像度の情報を保持する: agent-centric tokens 結果 ✓ LIBEROベンチマークを用いたOpenVLAとの比較において、性能はわずかに上回り、収束速度は実時間・ステップ数の両観点で２倍高速化 ✓ 実世界におけるpick and placeタスクにおいてOpenVLAを上回る成功率 2

3 背景: VLAの訓練は計算コストが非常に大きい 3 ◼ VLAは事前学習済みLLM, VLMをロボット操作に応用する強力な手法 ◼ VLAモデルの訓練にはOpen X-Embodiment等の大規模なロボットデータセット
を用いることが多く、計算コストが非常に大きい ◼ 特に多量の画像トークンをLLMへ入力することが計算コストのボトルネック OpenVLA [Kim+, 24]

4 関連研究: VLAを効率化する様々な手法が提案 ◼ 小さなモデルサイズやObject-centricの情報の入力をする研究手法詳細 TinyVLA [Wen+, RAL25]
MiniVLA [Belkhale+, 24] 小さなモデルサイズやdiffusionベースのアクションヘッドを用いたVLA により訓練・推論速度を高速化する手法 DexGraspVLA [Zhong+, 25] Sam2Act [Fang+, 25] SAM (Segment Anything Model) を活用し、Object-centricの情報を VLAに組み込むことで性能向上を図る手法 DexGraspVLA [Zhong+, 25] TinyVLA [Wen+, RAL25]

5 提案手法： Oat-VLA: LLMの入力トークンを大幅削減 5 ◼ モデルの性能低下なしにLLMに入力する画像トークンの数を削減する Object-Agent-centric Tokenization scheme
for VLAs (Oat-VLA) ◼ 画像全体の情報を効率的に圧縮した: object-centric tokens ◼ エンドエフェクタの周囲に対する高解像度の情報を保持する: agent-centric tokens object-centric agent-centric

6 提案手法(1/4)：既存手法の問題 + 提案手法の狙い ◼ モデル：観測 ,指示文から行動の分布を学習
◼ 画像埋め込み ◼ 言語埋め込み狙い：モデルの性能低下なしに画像トークン数 𝑲 を大きく削減したい例： 224 × 224の画像をサイズ14 × 14のパッチに分ければ 𝐾 = 256 ≫ 𝐽  画像トークンの処理がモデルの訓練のボトルネック画像エンコーダ

7 提案手法(2/4)：Object-centric tokensの概要 ◼ 場面の理解には画像の全体を見ることが必要  すべてのトークンを入力すると以下のような無駄が多い ◼ タスクと無関係な背景 ◼
複数のパッチにまたがる物体に対する埋め込み背景複数のパッチにまたがる物体画像全体の情報を効率的に圧縮 →object-centric tokens ◼ 物体検出器を用いて同じ領域に属すると推定された画像トークン同士をプーリングする

8 提案手法(3/4)：Object-centric tokensの生成方法 ◼ 物体検出器の出力 ◼ 合計個の物体マスクを生成 ◼ k番目のパッチがn番目の物体のマスクが属するか：
◼ 同じ物体に対応する埋め込みをプーリングでまとめる物体検出器にはFT-Dinosaur [Didolkar, 24] を用いる物体検出器

9 提案手法(4/4)： Agent-centric tokens ◼ 細やかな物体操作ではエンドエフェクタと物体の関係を捉えることが必要  object-centric tokensでは、プーリングにより物体・エンドエフェクタの関係性
(e.g., 接触) の情報が失われる可能性エンドエフェクタの周囲に対する高解像度の情報を保持する →agent-centric tokens グリッパ検出器にはFaster R-CNN [Ren+, NIPS15] のアーキテクチャを用いる ◼ グリッパ検出器により画像上のグリッパの位置を推定し、その周囲のパッチに対応する画像トークンを入力

10 実験設定：LIBEROベンチマークおよび実世界で実験 ◼ トークンの入力個数 ◼ object-centric token: 7個 ◼ agent-centric
token: 3 x 3 = 9個例：256個の画像トークンを入力するときに比べて93.75%削減 ◼ ベンチマーク ◼ 実験環境 ◼ H100 x 8 ベンチマーク詳細 LIBERO spatial(空間関係の理解), object(物体の種類の理解), goal(指示文の理解), 10(長期タスク) 実世界 UFACTORY xArm 6 を使用し、テーブルトップで物体のpick and placeタスクを行う

11 ☺ GPUメモリ消費量・演算量が減少定量的結果(1/2): LIBEROベンチマークにおける結果手法バッチサイズ処理速度 Oat-VLA 𝟖
× 𝟔𝟒 = 𝟓𝟏𝟐 𝟑𝟐𝟎 𝐞𝐱𝐚𝐦𝐩𝐥𝐞𝐬/𝐬 Open VLA 8 × 32 = 256 157 examples/s ☺ わずかにOpenVLAを上回る。 ☺ 高難易度なLIBERO 10では大きく上回る ☺ LoRAでも計算コストが低下、平均の成功率で既存手法を上回る ◼ 全体ファインチューニング ◼ LoRA 手法バッチサイズ処理速度 Oat-VLA 𝟖 × 𝟒𝟖 = 𝟑𝟖𝟒 𝟑𝟖𝟒 𝐞𝐱𝐚𝐦𝐩𝐥𝐞𝐬/𝐬 Open VLA 8 × 16 = 128 197 examples/s ※LoRAではFSDPが使用不可なことから全体ファインチューニング時よりも減少

12 定量的結果(2/2): 実世界のtable-top物体再配置タスクの結果 ◼ テーブルトップ環境で320軌道を操作して収集 ◼ in-distribution tasks ◼ 少なくとも10軌道がデータセットに存在
◼ out-of-distribution tasks ◼ 指示文の名詞を入れ替えるなどした未知のタスク (全体)物体の向きや位置を軽微な変化を加えるタスクの例 (a) Place the banana in green bowl (b) Place red cube in the brown bag ☺ 既知タスク・未知タスクともに OpenVLAより高い成功率

13 定性的結果：Oat-VLAの動作・領域の可視化結果 ◼ out-of-distribution tasks ◼ in-distribution tasks ☺ OpenVLAが空中を掴むことが多いなか、Oat-VLAは正確にpick,
placeを実行できている

14 まとめ背景 ✓ 近年のVLAは大規模なロボットデータによる事前訓練などを要し、訓練コスト大 ✓ 既存手法では多量の画像トークンをLLMに入力することが計算のボトルネック提案 ✓ モデルの性能低下なしにLLMに入力する画像トークンの数を大幅に削減するOat-VLA
✓ 画像全体の情報を効率的に圧縮した: object-centric tokens ✓ エンドエフェクタの周囲に対する高解像度の情報を保持する: agent-centric tokens 結果 ✓ LIBEROベンチマークを用いたOpenVLAとの比較において、性能はわずかに上回り、収束速度は実時間・ステップ数の両観点で２倍高速化 ✓ 実世界におけるpick and placeタスクにおいてOpenVLAを上回る成功率 1

15 Appendix(1/3): LoRA時のステップ数-成功率の推移 ◼ OpenVLAより少ないステップ数で成功率が上昇 50K 50K 60K 80K

16 Appendix(2/3): 入力トークンの個数 ◼ ２つの比較において性能差が小さいことからトークン数が少ない方を選定

17 Appendix(3/3): GPU使用量とスループットの比較 ◼ 特にLoRA時に最大のGPUメモリ使用量にOpenVLAと顕著な差

[Journal club] Focusing on What Matters: Object...

[Journal club] Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action Models

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学杉浦孔明研究室髙木裕輔 Focusing on What Matters: Object-Agent-centric Tokenization for

3 背景: VLAの訓練は計算コストが非常に大きい 3 ◼ VLAは事前学習済みLLM, VLMをロボット操作に応用する強力な手法 ◼ VLAモデルの訓練にはOpen X-Embodiment等の大規模なロボットデータセット

4 関連研究: VLAを効率化する様々な手法が提案 ◼ 小さなモデルサイズやObject-centricの情報の入力をする研究手法詳細 TinyVLA [Wen+, RAL25]

5 提案手法： Oat-VLA: LLMの入力トークンを大幅削減 5 ◼ モデルの性能低下なしにLLMに入力する画像トークンの数を削減する Object-Agent-centric Tokenization scheme

6 提案手法(1/4)：既存手法の問題 + 提案手法の狙い ◼ モデル：観測 ,指示文から行動の分布を学習

7 提案手法(2/4)：Object-centric tokensの概要 ◼ 場面の理解には画像の全体を見ることが必要  すべてのトークンを入力すると以下のような無駄が多い ◼ タスクと無関係な背景 ◼

8 提案手法(3/4)：Object-centric tokensの生成方法 ◼ 物体検出器の出力 ◼ 合計個の物体マスクを生成 ◼ k番目のパッチがn番目の物体のマスクが属するか：

9 提案手法(4/4)： Agent-centric tokens ◼ 細やかな物体操作ではエンドエフェクタと物体の関係を捉えることが必要  object-centric tokensでは、プーリングにより物体・エンドエフェクタの関係性

10 実験設定：LIBEROベンチマークおよび実世界で実験 ◼ トークンの入力個数 ◼ object-centric token: 7個 ◼ agent-centric

11 ☺ GPUメモリ消費量・演算量が減少定量的結果(1/2): LIBEROベンチマークにおける結果手法バッチサイズ処理速度 Oat-VLA 𝟖

12 定量的結果(2/2): 実世界のtable-top物体再配置タスクの結果 ◼ テーブルトップ環境で320軌道を操作して収集 ◼ in-distribution tasks ◼ 少なくとも10軌道がデータセットに存在

13 定性的結果：Oat-VLAの動作・領域の可視化結果 ◼ out-of-distribution tasks ◼ in-distribution tasks ☺ OpenVLAが空中を掴むことが多いなか、Oat-VLAは正確にpick,

15 Appendix(1/3): LoRA時のステップ数-成功率の推移 ◼ OpenVLAより少ないステップ数で成功率が上昇 50K 50K 60K 80K

16 Appendix(2/3): 入力トークンの個数 ◼ ２つの比較において性能差が小さいことからトークン数が少ない方を選定

17 Appendix(3/3): GPU使用量とスループットの比較 ◼ 特にLoRA時に最大のGPUメモリ使用量にOpenVLAと顕著な差