Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

[Journal club] VLA-Adapter: An Effective Paradi...

[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室 髙木裕輔 VLA-ADAPTER: AN EFFECTIVE PARADIGM FOR TINY-SCALE VISION-LANGUAGE-ACTION

    MODEL Yihao Wang1,2,4 ,Pengxiang Ding2,3,4 ,Lingxiao Li1,4,5, Can Cui2,4, Zirui Ge3,4, Xinyang Tong2,4, Wenxuan Song4,6, Han Zhao2,3,4, Wei Zhao2,4, Pengxu Hou6, Siteng Huang2, Yifan Tang1, WenhuiWang1, RuZhang1, Jianyi Liu1, Donglin Wang2 1Beijing University of Posts and Telecommunications, 2Westlake University, 3Zhejiang University, 4OpenHelix Team, 5State Key Laboratory of Networking and Switching Technology, 6The Hong Kong University of Science and Technology (Guangzhou) Wang, Yihao, et al. "Vla-Adapter: An Effective Paradigm for Tiny-scale Vision-Language-Action Model." arXiv preprint arXiv:2509.09372 (2025).
  2. 2 概要 背景 ✓ VLAはモデルの大規模化・事前訓練の大規模化により計算コスト大 ✓ バックボーンVLMの特徴量をどのように軌道生成へ利用するのか分析が不足 提案 ✓ VLA

    Adapter: Vision-Language(VL)の情報をAction(A)に橋渡しする軽量なアーキテクチャ ✓ 軌道生成に用いるVLMの特徴の種類,層数の違いの影響を体系的に分析 ✓ 凍結したバックボーンの各層の特徴量,アクションクエリに集約された情報を効果的に ポリシーに伝えるBridge Attention 結果 ✓ LIBERO, CALVINのシミュレータ・ 実世界の実験にて既存手法を 上回る成功率かつ高速な推論 2
  3. 4 関連研究: VLMの特徴量が様々な形で軌道生成へ活用 ◼ 用いる特徴量の種類・どの層の特徴量を用いるかで既存研究を大別 手法 タイプ 用いる特徴量 どの層か RoboVLMs

    [Liu+, 24] (1) Raw features 最終 GR00T N1 [NVIDIA+, 25] (2) Raw features 中間 π0 [Black+, RSS25] (3) Raw features 全て OpenVLA-OFT [Kim+, RSS25] (4) Action Query 最終 ✓ Raw features : Vision, Languageを入力したバックボーンVLMの層から抽出される特徴量 ✓ Action Query : 軌道生成のためにモデルに入力され,各層にて情報を集約した特徴量
  4. 5 提案手法:VLA-Adapter VL特徴をAに効率的に橋渡し 5 ◼ バックボーン VLM の層ごとの特徴量や Raw features⇔

    Action Query の違いが 軌道生成に与える影響を体系的に分析 ◼ VLMの各層の情報をポリシーに伝えるBridge Attentionをもつ軽量なアーキテクチャ ◼ 大規模ロボットデータによる事前学習なし・バックボーン凍結でも高性能かつ高速
  5. 6 ◼ Raw features : ◼ Action Query : ◼

    以下の2つのQについて調査 Q1.1. VLMのどの層の特徴量がポリシー ネットワークに有効なのか? Q1.2. Action QueryはRaw featuresより 良い特徴量なのか? 提案手法(1/4):VLA-Adapterの文字の定義・2つのQ 6 ◼ VLM の時刻 における入力 3人称視点画像 グリッパカメラ画像 指示文 アクションクエリ
  6. 8 提案手法(3/4):実験の結果からの発見 Key Finding 1. を用いた場合,中間層の特徴を用いた時が最良 ◼ 軌道生成に必要なマルチモーダルな情報を保持 Key Finding

    2. を用いた場合,最終層の特徴を用いた時が最良 ◼ 軌道生成に有用な情報を選択的に集約 Key Finding 3. 各層の特徴を用いた場合,単一の層の特徴を用いるよりも良好 ◼ 各層を最初から用いれば最適な単一の層を探索する必要なし Key Finding 1. Key Finding 2. Key Finding 3.
  7. 9 ◼ ポリシーネットワークの入力: 提案手法(4/4):Bridge Attentionを含むポリシー = FFN = MLP 𝐿𝑁

    Raw featuresと Cross Attention ActionQuery および Proprioと Cross Attention Self Attention 𝜏:層数(0 ≤ 𝜏 ≤ 𝑀 − 1) 𝑀:バックボーンの層数 (=ポリシーの層数) 𝐻:チャンキング長 𝜎0 , 𝜎1 , 𝜎2 :MLP 𝑔:学習可能スカラー = MLP 𝐿𝑁 重み付け 初期アクション ロボットの関節情報(Proprioception) ◼ 出力
  8. 10 定量的結果(1/4):OpenVLA-OFTのbridging機構を上回る ◼ バックボーンの種類を変更してbridging機構の有用性を検証 ◼ B1: Prismatic VLM (Qwen2.5-0.5Bで訓練済み) ◼

    B2: Prismatic VLM (LLaMA2-7Bで訓練済み) ◼ B3: OpenVLA-7B ◼ ベンチマーク:LIBERO-Long ☺ 3種のバックボーンにおいて提案手法が上回る ロボットデータによる事前訓練なし ロボットデータによる事前訓練済み
  9. 13 ◼ 6 DoFのアーム+ 1 DoFのグリッパで構成されるSynria Alicia-D ◼ 4種類のタスクで評価 ◼

    pick-and-place ◼ move xxxx left/right ◼ block stacking ◼ long ◼ ベースライン ◼ ACT [Zhao, 23] ◼ OpenVLA-OFTの小規模版 ◼ 各タスク10回ずつ実験し成功率を測定 ☺ すべてのタスクでベースラインを上回る 定量的結果(4/4):実世界における実験で既存手法を上回る e.g. “Pick up the spoon and place it on the cup, then place the cup on the plate”
  10. 15 まとめ 背景 ✓ VLAはモデルの大規模化・事前訓練の大規模化により計算コスト大 ✓ バックボーンVLMの特徴量をどのように軌道生成へ利用するのか分析が不足 提案 ✓ VLA

    Adapter: Vision-Language(VL)の情報をAction(A)に橋渡しする軽量なアーキテクチャ ✓ 軌道生成に用いるVLMの特徴の種類,層数の違いの影響を体系的に分析 ✓ 凍結したバックボーンの各層の特徴量,アクションクエリに集約された情報を効果的に ポリシーに伝えるBridge Attention 結果 ✓ LIBERO, CALVINのシミュレータ・ 実世界の実験にて既存手法を 上回る成功率かつ高速な推論 1