Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CoRL2025速報

 CoRL2025速報

9/27-9/30に韓国で開催されたCoRL2025のサーベイ資料です.昨年に引き続き,動向や気づきに加えて特に興味深い論文を調査しました.

Avatar for robotpaper.challenge

robotpaper.challenge

October 03, 2025
Tweet

More Decks by robotpaper.challenge

Other Decks in Research

Transcript

  1. CoRL2025 動向,気づき( 5/33) Generalizable Priors for Robot Manipulation • YangGao:データ枯渇へ

    対応に VLMとInternetVideoを活用 ◦ CoPa:Taskに紐づいた 3Dを意識した物体 Poseや移動方向を推定 ◦ MotionTrans:ロボットと人間デモを 6DTrajectoryと1人称視点を使って共同で学習 ◦ GeneralFlow:人間でもから FLow推定し、 Scaleを調整して直接 RobotへTransfer ◦ FICC:将来 状態予測を潜在空間上で行うように学習 ◦ Generalization 範囲 手法によって違う で用途によって使い分けるべき • Harold Soh:Physical, Socal, Truth worhtyなどコンテキストに基づいて Priorを 設計 ◦ BRIDGeR:推定した ActionChunkをDiffusionModel 入力に使って効率よくいい軌道を出力 ◦ Tactile VLM:触覚と視覚から特性推定、そ 結果 BRIDGeRに入力してより良い操作を出力 7
  2. CoRL2025 動向,気づき( 6/33) Generalizable Priors for Robot Manipulation • Ajay

    Mandlekar:合成データで スケーリング ◦ Mimicgen:少数デモから Simでスケールアップして性能を底上げする ◦ SoftMimicGen:Source->Target 3Dpoint 変化を予測して、そこから Point 移動方向、量 をベースに動作生成 ◦ PointBridge:Hand Keypoint,Object StatePointを中間表現として Sim ,Realで共通して使うこ とでSim2Realを行う • Jiafei Duan L:VLM Grounding ◦ ROboPoint:Simから空間的なアフォーダンス データを生成し、視点依存あり /なし 問題など を扱う ◦ MolmoAct:2.5D 空間 意味的な理解と、ロボット 動作軌道を予測した ちに Actionを生成 するように学習することでより高品質なデータを扱って効率よく学習できる 8
  3. CoRL2025 動向,気づき( 7/33) Resource-Rational Robot Learning (https://rational-robots.github.io/) • Yuku Zhu

    (NVIDIA) : Scaling imitation learning for manipulation ◦ Object-centric: 人 手や全身 動きを 3Dモデルでキャプチャし、マニピュレータやヒューマノイ ドにリターゲティング ◦ Data-centric: 実機+シミュレーション 併用でスケールアップを目指す ▪ Sim-and-Real co-training pipelineを紹介 • 人 好みや経験をロボット 学習にどう活用するか ◦ 方策A, B 違いを説明させる comparative language ◦ 決定木による状態 分割&認識、 Bayesian inferenceによって事前に行動 成否を予測 ◦ データやハードウェアに制限を加え、徐々に制限を緩和するカリキュラム学習 ◦ VLMによるTheory-of-Mind (ToM) ベンチマークを作成、ベンチマークモデルで人が操作する エージェントを助けるプランニングを検証 9
  4. CoRL2025 動向,気づき( 8/33) Making Sense of Data in Robotics (link)

    • Ken Goldberg:Good Old Fashioned Engineering Can Close the 10,000−Year Robot “Data Gap” ◦ 画像認識でも自然言語でも大きなデータで上手く学習できたが、ロボティクスでも同じく上手く学 習できるか?できるかもしれないが、いつ実現できる? ◦ 例え 、 TeslaとWaymoだと集めているデータに大きな差( Tesla >> Waymo)があるが、 Waymo 自動運転 航続距離 Teslaより長い ◦ 従来 手法とデータ駆動 手法を混ぜて使用すること とても良い ◦ データを増やす方法 色々あるが、 Ambi Roboticsで Data FlyWheelsが重要だと考えている ▪ Ambi Roboticsで 上記方法で 200K hours データを集めた 10
  5. CoRL2025 動向,気づき( 9/33) Making Sense of Data in Robotics (link)

    • Chelsea Finn: Bottlenecks in Developing Robot Foundation Models ◦ Physical Intelligence これまで成果において複雑なタスク 実行や、新しい環境へ 対応に ついて取り組んできた ◦ さらなる進歩 ために 、 2つ ボトルネックがある ▪ ポリシー 高 化 →根本的に収集しているデータ周期が遅い • ロボット グリッパーを人が持って操作する、 Aloha Lightning※1を提案 ▪ スケーラブルな評価 →1つ タスク 評価でも時間がかかってしまう • Policyを評価するため 生成モデル( Ctrl-World※2)を提案 11 ※1,2 : under review
  6. CoRL2025 動向,気づき( 10/33) Main conference LIVE配信あり • Day 1: https://www.youtube.com/watch?v=Use5M-nfFlI

    • Day 2: https://www.youtube.com/watch?v=rh2oxU1MCb0 • Day 3: https://www.youtube.com/watch?v=9lzFVQoc4Do 12
  7. CoRL2025 動向,気づき( 11/33) Keynote: Toward Physical Intelligence • Prof. Sangbae

    Kim, MIT ◦ “ What are the challenges in realizing these intelligent machines capable of human level skill? ” ロボット まだ器用になんでもできるわけで ない上,普及が遅れている ◦ ロボティクス パラダイムシフト : 従来 大型・固定的なロボットから、より俊敏で適応的なシステ ムへ 移行が重要であり、複雑なタスクに 制御や機械学習 活用が不可欠。家庭内に持ち 混むために 、「 Physical Intelligence」(≒適応的,身体的知識)が重要であることを強調。 ◦ 継続的な学習と実験、ロボティクス原理 広範な理解がブレークスルーに不可欠。 13 https://www.corl.org/program/keynotes 
  8. CoRL2025 動向,気づき( 12/33) Keynote: The Golden Age of Humanoid Robots

    • Dr. Jun Ho Oh, Samsung Electronics ◦ ヒューマノイドロボット 研究用途から実用化へと進化 , 家庭や工場で人間 労働を代替する存 在として注目 ◦ 近未来 ヒューマノイドロボット 姿と能力、そして各分野で 応用について議論 ◦ DARPAロボティクス・チャレンジ (2015)でKAIST HUBO+を紹介 ◦ ヒューマノイドロボット 形状や機能に まだ明確な標準がなく、用途に応じた多様な設計が求 められている。家庭、工場、公共サービスなど、各分野で必要とされる能力 異なり、今後 ユーザー ニーズに応じた柔軟な開発が重要に。 ◦ 最後に、 Samsungがロボット開発に積極的に取り組んでいることを紹介.今後 商業化に向け た挑戦と展望について紹介. 14
  9. CoRL2025 動向,気づき( 13/33) LLM/VLM 役割 シフト (補助から基盤へ ) • ロボット学習

    上流タスクを助ける補助的モジュールから方策学習 中心へ • LLMに報酬を設計させるようになった ◦ Text2Touch : LLMが報酬関数を自動設計し,触覚強化学習を駆動 ◦ ReWiND : LMで失敗パターンを逆再生 →言語誘導による報酬設計 ◦ Training Strategies for Efficient Embodied Reasoning : CoT推論を簡易化 →なぜLLM推論が効くかを分析 • 理由 ◦ マルチモーダル統合 必要 : 視覚だけで 難しいタスク(触覚, 音響, 人間好み 考慮など)が増加 ◦ 報酬設計 難しさ : 従来 設計がボトルネックだったが,LLMを報酬設計器に使うことで突破口が開ける 15
  10. CoRL2025 動向,気づき( 14/33) データ 量から質へ • データ効率やデータ品質 寄与度が論文 評価指標に入りつつある ◦

    CUPID [Agia et al., 2025]: 各デモが学習に与える影響を定量化 → デモ 取捨選択による質向上 ◦ DemoSpeedup [Guo et al., 2025]: 人間デモ 不要な部分を自動短縮 → デモ 編集による質向上 ◦ IWR [Xie et al., 2025]: 類似デモを確率密度で数値化 → デモ 優先順位を付けノイズを じく • 理由 ◦ スケール限界 : データ拡張や大規模収集 試み 限界(コスト・時間・安全面)に直面 ◦ 実機応用: リアル環境で データ収集が制約されるため、選択・編集が必須に ◦ シミュレーション活用 : 生成した大量データ 中からどれを残すか・削るかが実機性能に直結する 16 CUPID (サイトより抜粋) DemoSpeedup
  11. CoRL2025 動向,気づき( 15/33) DataAugmentationが比較的多い • Real データ 不足していること、コストが高い ◦ Real2Render2Real:

    Trajectory Randomizationを加える ◦ X-Sim:Visual DomainRandomizationを加える ◦ DreamGen:動画生成モデル+ Pseudo-Action ◦ CP-Gen:物体 形状や姿勢変化させて Augmentation, DepthとSegmentationを利用 ◦ [T. Lin et al.]:物理パラメータ Realデータから Fittingして、DepthとCoMを入力して RL →Real2SimなどでSim2RealGapが小さなデータを利用 , Sim2RealGapが小さなデー タ 表現で学習 17
  12. CoRL2025 動向,気づき( 16/33) Cross-modalities/Multisensory 表現 獲得に向けて • 複数 モダリティ統合を狙うハードウェアとエンコーダ ◦

    Sparsh-X/Sparsh-Skin [AI at Meta+ 2025] ▪ Sparsh-X:Digit 360センサー(触覚画像、音声、 IMU、圧力)による複数 触覚モダリティを統合したエン コーダ ▪ Sparsh-Skin:磁気皮膚センサー( Xela)に特化したエンコーダ ◦ Touch2Touch [Rodriguez+ 2025] ▪ ロボットが同じ物体を異なる触覚センサー( GelSlimとSoft Bubble) ▪ 異なる触覚センサー間で ポリシー(操作戦略) 再利用を可能に ⇒ マルチモーダルへ 注目がある一方,ハードウェアへ 依存が課題.データ数 不足が課題 18 Sparch-X [github] Touch2Touch [web]
  13. CoRL2025 動向,気づき( 17/33) Reasoning 導入 • VLA学習データ 質をあげる、 Long-horizonやNovel objectに対応する

    ◦ Pi0.5:VLMをEmbodied Reasoningで再チューニング、推論結果を Low-levelmodelに渡す ◦ DexVLA:先にActionmodelを小さな Encorderで学習した ち、 VLMに置き換える ◦ Efficient Embodied Reasoning:事前学習で Reasoning、Action生成前に推論する ◦ ManipBench:Point,Grid-level ActionReasoningベンチマーク 19
  14. CoRL2025 動向,気づき( 18/33) 質が高くスケールアップが容易なデータ収集デバイス • テレオペ 高コスト、人間デモ 質 低さを解決したい ◦

    FastUMI:PoseTrackingを簡単に ◦ DexUMI:多指ハンド Interface ◦ CLAMP:Suctionとマルチモーダルなセンサを付加、 Grasp modeを中心に収集 ◦ FreeTacMan(Demo):視触覚センサがついた Interface ◦ MagiClaw(Demo):SoftFinger 変形計測を追加、 Gripper 遠隔操作も組み込む 20 FastUMI(ver2 事業化) DexUMI CLAMP FreeTacMan MagiClaw
  15. CoRL2025 動向,気づき( 20/33) Diffusion policy 改善が多数 • Diffusion policy 特性を活かした高

    化、安定化 ◦ RLで初期ノイズを調整: Steering Diffusion Policy ◦ 初期ノイズ 代わりに前 推論結果を利用: Streaming Flow Policy ◦ Guidanceとして前 推論結果を利用: D-Cube ◦ Value関数 勾配を利用: COMBO-Grasp ◦ ControlNetで直接的な条件付け: ControlVLA ◦ Flow-matching, Consistencyを取るように Denoising:ManiFlow -> Finetuningなし/小サンプル 高効率な学習を実現 22
  16. CoRL2025 動向,気づき( 21/33) Gemini Robotics • Sponsor talkとExhibition ◦ Sponsortalk:会議

    当日 0時に発表された Gemiri Robotics 1.5 解説. Embodied Reasoning 性能を高め、自身 行動と ’次 ステップについて考えながら Actionを生成する。 Multi -Embodimentにも対応 ◦ ALOHA2とBimanual Franka デモンストレーションを実施.マイクを用意してランダムにユーザ から様々な言語指示+物体 追加に対応して作業を実行できる. ◦ Testerも募集して 23
  17. CoRL2025 動向,気づき( 23/33) Exhibition • 学習データ収集用 操作装置 ◦ 方式 、関節を直接マッピングする方式

    > VRデバイスを使用しカルテシアンで制御する方式 > Motion Capture 順で多かった。 25
  18. CoRL2025 動向,気づき( 24/33) Exhibition • E2Eモデル デモが大きく増え、 Zero-Shotで動かしている展示もあった ◦ Google

    DeepMind: Gemini Robotics 1.5 ◦ DynaRobotics: Tシャツ 取り出し →展開→折りたたみ : Zero-Shotで実行 ◦ Unitree:ボクシング ◦ Franka:Gemini Roboticsを700 episodeでFinetuning 26
  19. CoRL2025 動向,気づき( 25/33) NVIDIA • Sponsor talkと多数 論文 ◦ シミュレーションを活用した大量

    合成データ生成と学習 ◦ Cosmosを利用したり( DreamGen)やスキル別に( Dexmimicgen)データ拡張を行い Realでロバ ストに動く Humanoid Policyを学習する ◦ Newton(微分可能シミュレーション)、 Warpでよりオープンなシミュレーション開発 27
  20. CoRL2025 動向,気づき( 26/33) Early carrier keynote: Wenzen Yuan • From

    Simulation to Reality: Learning Transferable Models for Tactile Sensors ◦ シミュレーションを使った Tactile認識 学習 ◦ Taxim:キャリブレーション用に少量収集して LinghtIntensityを求める。 Sim データ みで Grasp成功失敗判定ができるようになった。 ◦ Physicallybasedrenderingを使って、条件を細く変えて照明変化をつけてデータを収集 ◦ TargetとCalibration画像を入れて異なるセンサで推定可能にした。 28
  21. CoRL2025 動向,気づき( 27/33) Early carrier keynote: Nima Fazeli • Touch-driven

    Sensorimotor Perception and Control: From Today’s Research to Tomorrow’s Deployment ◦ モデル予測制御と強化学習、模倣学習を活用して Tactileを理解する ◦ Punyoセンサ表面 変化を予測して物体 位置姿勢を推定 ◦ 姿勢とTactile 生データ、剪断方向 Mapを利用して組立作業をデモから学習 ◦ Issac simでTactile シミュレーションを作り組立 PolicyをVisionなしで強化学習 29
  22. CoRL2025 動向,気づき( 28/33) Early carrier keynote: Lerral Pinto • Robot

    Data is Not enough Data ◦ いかに効率よく、質 高いデータを Realから集められるか? ◦ 把持に関するモジュールを多数利用し Self-supervisedに収集。様々なも 把持が可能に ◦ ハンドヘルド型 簡単なデータ収集ツール。 ◦ メガネ型 ツールで1人称視点作業動画を収集 ◦ 触覚や多指ハンド、マルチモーダルを利用してさらにデータを収集する 30
  23. CoRL2025 動向,気づき( 29/33) Finalists • Learning a Unified Policy for

    Position and Force Control in Legged Loco-Manipulation (Peiyuan Zhi et al.) • LocoFormer: Generalist Locomotion via Long-context Adaptation (Min Liu et al.) • Visual Imitation Enables Contextual Humanoid Control (A. Allshire et al.) • Fabrica: Dual-Arm Assembly of General Multi-Part Objects via Integrated Planning and Learning (Y. Tian et al.) • DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation (M. Xu et al.) • The Sound of Simulation: Learning Multimodal Sim-to-Real Robot Policies with Generative Audio (R. Wang) • Pi 0.5: a Vision-Language-Action Model with Open-World Generalization (K. Black)* • Steering Your Diffusion Policy with Latent Space Reinforcement Learning (A. Wagenmaker)* *サーベイメンバー Bestpaper予想 31
  24. CoRL2025 動向,気づき( 30/33) Best student paper award • Visual Imitation

    Enables Contextual Humanoid Control ◦ Arthur Allshire, Hongsuk Choi, Junyi Zhang, David McAllister, Anthony Zhang, Chung Min Kim, Trevor Darrell, Pieter Abbeel, Jitendra Malik, Angjoo Kanazawa ▪ 人間 動き 動画から Humanoid動作生成。 ▪ Real2Sim2Real 多数提案されている中で、様々なダイナミックなデモがあったことが要 因? 32
  25. CoRL2025 動向,気づき( 31/33) Best paper award • Learning a Unified

    Policy for Position and Force Control in Legged Loco-Manipulation ◦ Peiyuan Zhi, Peiyang Li, Jianqin Yin, Baoxiong Jia, Siyuan Huang ▪ 力センサなしで force-awareな教示を実現する強化学習手法を提案 ▪ 様々なロボットで contact-richな操作を可能にする「これから ロボット学習」を 見据えた基盤技術をアピールできたことが要因? 33
  26. CoRL2025 動向,気づき( 32/33) Best paper award • Fabrica: Dual-Arm Assembly

    of General Multi-Part Objects via Integrated Planning and Learning ◦ Yunsheng Tian, Joshua Jacob, Yijiang Huang, Jialiang Zhao, Edward Li Gu, Pingchuan Ma, Annan Zhang, Farhad Javid, Branden Romero, Sachin Chitta, Shinjiro Sueda, Hui Li, Wojciech Matusik ▪ 長期的な多部品を組み立て作業を階層的にルールベースでプランニングする+強化 学習で補正 ▪ Contact-richなタスクを様々なバリエーションで実現できたことが要因? 34
  27. 論文まとめ( 1/110) Adapting by Analogy: OOD Generalization of Visuomotor Policies

    via Functional Correspondence • Pranay Gupta Henny Admoni Andrea Bajcsy ◦ 未知物体や背景(OOD環境)でも頑健な模倣学習へ functional correspondence(機能的関係 ) ◦ OOD検出 : 閾値処理で現在 観測が学習分布から外れているかを高 に判定 ◦ 対応関係 ラベル付け : expertが自然言語で対応を明示 (例: 「鉛筆とペン 同じ」 etc..) ◦ 掃き掃除やカップ入れタスクで成功率が最大 +76%改善 → 数回 言語指示で実現 37 https://adapting-by-analogy.github.i o/project-page/
  28. 論文まとめ( 2/110) Agreement Volatility: A Second-Order Metric for Uncertainty Quantification

    in Surgical Robot Learning • Jordan Thompson, Britton Jordan, Daniel S. Brown, and Alan Kuntz ◦ VAD-Net : DeformerNetベース 提案モデル.外科用ロボット ため 軟組織操作 自動化 ▪ Agreement Volatility : 不確実性推定 新しい提案手法. 従来 予測分散に加え,分散 入力摂動に対する勾配を計算 → 単なる分散より鋭敏 ◦ 成功率が90%→100%に改善、人間介入時間を約 10%削減 38
  29. 論文まとめ( 3/110) Crossing the Human-Robot Embodiment Gap with Sim-to-Real RL

    using One Human Demonstration Tyler Ga Wei Lum, Olivia Y. Lee, Karen Liu, Jeannette Bohg ◦ 背景: Sim-to-real from human videos is hard due to morphology/action-label gaps. ◦ 提案: Real2sim2real RL using a single human RGB-D demo via object-centric rewards + pre-manipulation hand pose. ◦ 結論: Robust zero-shot sim-to-real dexterous manipulation outperforming imitation baselines. 39
  30. 論文まとめ( 4/110) ClutterDexGrasp: A Sim-to-Real System for General Dexterous Grasping

    in Cluttered Scenes • Zeyuan Chen, Qiyang Yan, Yuanpei Chen, Tianhao Wu, Jiyao Zhang, Zihan Ding, Jinzhou Li, Yaodong Yang, Hao Dong Teacher-Studentフレームワークを使って、 sim-to-realしClutteredシーンでも対象物を掴む 40 ◦ Teacher(強化学習): シミュレーションで 物が少 → 多とだんだん難易度を上げ てカリキュラム学習 ◦ Student(模倣学習): 3D Diffusion Policyでpartial点群からTeacher 行 動を近似するように学習
  31. 論文まとめ( 5/110) SAVOR: Skill Affordance Learning from Visuo-Haptic Perception for

    Robot-Assisted Bite Acquisition • Zhanxin Wu, Bo Ai, Tom Silver, Tapomayukh Bhattacharjee 1. 素材などが異なる道具を使って、オフラインで道具 操作方法を教師あり学習 2. GPTで食材 特徴 (硬さ、moisture, 粘土)を画像から予測し、実際 操作中に視覚と触覚で更新 3. 食材に合わせて、フォークで刺す・スプーンですくうなど 最適なスキルを選択実行 41
  32. 論文まとめ( 6/110) Constraint-Preserving Data Generation for Visuomotor Policy Learning Kevin

    Lin, Varun Ragunath, Andrew McAlinden, Aaditya Prasad, Jimmy Wu, Yuke Zhu, Jeannette Bohg ◦ 1つ 実演を分割してデータセットを作る手法 → 少数デモから大規模データセットを作る ◦ キーポイント制約をつけ形状変化にも対応 ◦ 実機 片付けやグラス掛けでも平均83%成功と大幅改善 42 https://cp-gen.github.io
  33. 論文まとめ( 7/110) Latent Theory of Mind: A Decentralized Diffusion Architecture

    for Cooperative Manipulation • Chengyang He, Gadiel Mark Sznaier Camps, Xu Liu, Mac Schwager, Guillaume Adrien Sartoretti  2台以上 ロボットが協調して、合意形成を行いながら、物体操作を行う 43 ◦ 各ロボット 自己固有表現 (ego embedding)と、複数ロボットでタ スクをするため 合意表現 (consensus embedding)をそれぞれ持 つ ◦ Consensus loss: それぞれ ロボット sheaf理論を使って consensusを推測し、全ロボットで一貫した理解を持つように ◦ Theory of Mind-inspired loss: 相手 egoを自分 consensusか ら推測し、 相手 立場を想像するような制約をかける ◦ Directional consensus loss: 信頼度を使って、ど ロボット 情報 を重視するか重みづけして consensusを形成 ◦ Diffusion policyで動作生成し、ブロック押しやコーヒー粉注ぎを達 成
  34. 論文まとめ( 8/110) Meta-Optimization and Program Search using Language Models for

    Task and Motion Planning • Denis Shcherba, Eckart Cobo-Briesewitz, Cornelius V. Braun, Marc Toussaint TAMPに言語モデルを活用して、高レベルタスクを動的に選択。低レベル 最適化で生成 44 ◦ レベル1: LLMにタスク 前提条件や物理的制 約を選択させる ◦ レベル2:プラックボックス最適化により、レベ ル1で選択された制約関数 数値パラメータを 最適化する ◦ レベル3:ロボット 軌道を勾配ベースで最適 化する
  35. 論文まとめ( 9/110) Fabrica: Dual-Arm Assembly of General Multi-Part Objects via

    Integrated Planning and Learning • Yunsheng Tian, Joshua Jacob, Yijiang Huang, Jialiang Zhao, Edward Li Gu, Pingchuan Ma, Annan Zhang, Farhad Javid, Branden Romero, Sachin Chitta, Shinjiro Sueda, Hui Li, Wojciech Matusik  長期的な多部品を組み立て作業を階層的にルールベースでプランニングする+強化学習で補正 45 ◦ (1)タスクレベル: ど 部品をど 順番で組み立てるか、部品間 依存関係を探索 ◦ (2)操作レベル: ど 把持・配置動作で組み立てる か幾何学的 サンプリング+自動で治具も生成 ◦ (3)軌道最適化: 勾配ベース最適化で軌道を計算 ◦ 強化学習でローカル制御: (3) 軌道に対して、RLで関節 度と力 トルク補正を出力する。 (3) 軌道を微調整
  36. 論文まとめ( 10/110) Gen2Act: Human Video Generation in Novel Scenarios enables

    Generalizable Robot Manipulation • Homanga Bharadhwaj, Debidatta Dwibedi, Abhinav Gupta, Shubham Tulsiani, Carl Doersch, Ted Xiao, Dhruv Shah, Fei Xia, Dorsa Sadigh, Sean Kirmani 46 ◦ 現在 カメラ画像とタスク指示を与えて、人 動作を動画生成 ◦ 動画内 手や物体 位置など キーポイントを追跡して動作軌道を抽出し、これを目標軌道とし模倣学習
  37. 論文まとめ( 11/110) RoboChemist: Long-Horizon and Safety-Compliant Robotic Chemical Experimentation •

    Neha Sunil, Megha Tippur, Arnau Saumell Portillo, Edward H Adelson, Alberto Rodriguez Garcia 長期タスクである化学実験を、安全基準に沿っているか監視しながら完全自律でロボットが行う 47 ◦ 長期計画 : タスクをサブタスクに分け、実験計画を立てる ◦ 視覚プロンプト生成 : VLAが画像情報からロボットアーム 動作を指示 ◦ 監視: 実験が正しく実行されているか、規制・安全基準 (薬品 混合制限や加熱温度制限など )に準拠 しているかを確認。危険を検出したら停止し、再計画
  38. 論文まとめ( 12/110) PrioriTouch: Adapting to User Contact Preferences for Whole-Arm

    Physical Human-Robot Interaction Rishabh Madan, Jiawei Lin, Angchen Xie, Xiaoyu Liang, Pranav N. Thakkar, Rohan Banerjee, Jose Barreiros, Tom Silver, Tapomayukh Bhattacharjee 個々人 接触に関する好み (力 強さや接触位置 )に適応して、複数同時接触するタスク実行 48 ◦ LinUCB-Rank: ユーザー フィードバックをもとに、どんな context(接触部位や腕 姿勢など )だとどん な報酬(快適さ)になる かオンラインで学習し、触る優先順位を更新する ◦ H-OSC: 学習した優先順位を低レベル制御に ◦ 反映し、力 分布を制御 ◦ Simulation-in-the-loopにより効率的かつ安全に。
  39. 論文まとめ( 13/110) Text2Touch: Tactile In-Hand Manipulation with LLM-Designed Reward Functions

    • Harrison Field, Max Yang, Yijiong Lin, Efi Psomopoulou, David Barton, Nathan F. Lepora LLMで報酬関数を自動設計して、触覚を使った in-handマニピュレーションを強化学習 49 ◦ LLMにタスク記述プロンプト (例: 物体をz軸周 りに回転させたい )と、環境で使える観測変数 リスト (触覚センサ、物体 姿勢、 70個以 上)を入力し、報酬関数を自動生成 ◦ 複数 報酬関数 候補を、シミュレーション で評価し、最適なも を選択  ◦ 人 設計した報酬ベースラインよりも早く収 束して安定したポリシーが得られる
  40. 論文まとめ( 14/110) Dexplore: Scalable Neural Control for Dexterous Manipulation from

    Reference-Scoped Exploration • Sirui Xu, Yu-Wei Chao, Liuyu Bian, Arsalan Mousavian, Yu-Xiong Wang, Liang-Yan Gui, Wei Yang 人 Motion capture(Mo-Cap)を“参考データ”として強化学習し、多指ハンドで様々なも を掴み上げる ◦ Mo-Capデモ 意図を保持する報酬+タスク成功報酬を使って最適化 ◦ 学習済み強化学習ポリシーを、部分観測から動作を生成する vision-based生成制御器に蒸留することで、 汎用性と実世界適用性を向上 50
  41. 論文まとめ( 15/110) Cross-Sensor Touch Generation • Samanta Rodriguez, Yiming Dou,

    Miquel Oller, Andrew Owens, Nima Fazeli 異なる触覚センサをcross-transferする方法 提案 ◦ Touch2Touch: ペア 触覚 データを使い、拡散モデルで一方 センサ画像から他方 センサ画像を直接生成。 ◦ T2D2 (Touch-to-Depth-to-Touch): 深度表現を中間に挟むことで、ペアデータなしでも変換を可能にする。 51
  42. 論文まとめ( 16/110) GraphEQA: Using 3D Semantic Scene Graphs for Real-time

    Embodied Question Answering • Saumya Saxena, Blake Buchanan, Chris Paxton, Peiqi Liu, Bingqing Chen, Narunas Vaskevicius, Luigi Palmieri, Jonathan Francis, Oliver Kroemer (CMU, etc.) ◦ Embodied Question Answeringタスクにおける構 的な環境表現 獲得 ◦ 逐次更新可能な3D Metric-Semantic Scene Graph & VLMによる階層的プランニング ◦ HM-EQA & OpenEQAにおける成功率でSOTA & 実機を用いた実環境へ 適用 52 https://saumyasaxena .github.io/grapheqa/
  43. 論文まとめ( 17/110) CLAMP: Crowdsourcing a LArge-scale in-the-wild haptic dataset with

    an open-source device for Multimodal robot Perception • Pranav N. Thakkar, et all (Equal Contribution, Cornell Univ) ◦ 安価で使いやすい触覚収集デバイスを配布し , 大規模クラウドソーシングデータセットを構築 ▪ 41家庭から 5357物体・1230万サンプル ◦ CLAMPデバイス : <$200. 5つ 触覚(温度/力/振動/IMU/プロプリオセプション) +アノテーション ◦ 触覚を使ってごみ分別・バッグから 物取り出し・バナナ 熟れ具合判定に成功 53 https://emprise.cs.cornell.edu/clamp/
  44. 論文まとめ( 18/110) CUPID: Curating Data your Robot Loves with Influence

    Functions • ChristopherAgia, RohanSinha, JingyunYang, RikaAntonova, MarcoPavone, HarukiNishimura, MashaItkina, JeannetteBohg ◦ 模倣学習に必要な質 良いデータを評価する指標を作るデータキュレーション 考案 → ど デモが性能を高め /害を与えるか 定量化 → デモiを重み付けしたとき、最終性能がどう変わるかを線形近似で評価 ◦ 大規模マルチタスクモデル π0 ファインチューニングでも性能 +36〜54%改善 ◦ RoboMimicベンチマーク: 全データ 33%未満を残すだけで最先端性能を達成 54 https://cupid-curation.github.io/
  45. D-CODA: Diffusion for Coordinated Dual-Arm Data Augmentation • I-Chun Arthur

    Liu, Jason Chen, Gaurav S. Sukhatme, Daniel Seita ◦ 双腕ロボット向け データ拡張手法 → 拡散モデルを使った手首カメラ画像 生成 ◦ 接触していないとき 自由に視点を変え、接触中 協調を保つ動きを制約つきで生成 ◦ シミュ/実機 両方で既存手法を大きく上回る性能を示す 論文まとめ( 19/110) 55 https://dcodaaug.github.io/D-CODA/
  46. 論文まとめ( 20/110) Data Retrieval with Importance Weights for Few-Shot Imitation

    Learning Amber Xie, Rahul Chand, Dorsa Sadigh, Joey Hejna ◦ 背景: NN-based demo retrieval is heuristic, highly noisy, and biased. ◦ 提案: Important weighted retreival (IWR)—retrieve demos by Gaussian KDE-estimated importance weights in latent space. ◦ 結論: Consistent gains over prior retrieval methods in simulation and Bridge/real tasks. 56
  47. 論文まとめ( 21/110) DemoSpeedup: Accelerating Visuomotor Policies via Entropy-Guided Demonstration Acceleration

    Lingxiao Guo, Zhengrong Xue, Zijing Xu, Huazhe Xu ◦ 背景: Policies inherit slow human demo speed. ◦ 提案: Leverage action entropy to identify casual segments, accelerating them while preserving precision. ◦ 結論: Trains policies executing much faster without degrading success rate. 57
  48. 論文まとめ( 22/110) DexVLA: Vision-Language Model with Plug-In Diffusion Expert for

    General Robot Control Junjie Wen, Yichen Zhu, Jinming Li, Zhibin Tang, Chaomin Shen, Feifei Feng ◦ 背景: VLAs often bottleneck on action representation and embodiment generalization. ◦ 提案: VLA + large diffusion action expert with a 3-phase embodiment curriculum. ▪ Stage 1 : trains the Diffusion Expert independently, without the VLM. ▪ Stages 2・3: integrate the Diffusion Expert with a VLM. ◦ 結論: Outperforms Octo/OpenVLA across embodiments and long-horizon tasks. 58
  49. 論文まとめ( 23/110) Diffusion Dynamics Models with Generative State Estimation for

    Cloth Manipulation • Tongxuan Tian, Haoyang Li, Bo Ai, Xiaodi Yuan, Zhiao Huang, Hao Su ◦ 拡散モデルを用いた布 操作 → 自己遮蔽と無限に近い自由度で力学的モデル化が困難 ◦ UniClothDiff : Transformer+拡散モデルを基盤に設計 ▪ Diffusion Perception Model (DPM): RGB-D点群から布 完全な 3Dメッシュを再構成 ▪ Diffusion Dynamics Model (DDM): 現在 状態と行動から未来 布状態を長期予測 ◦ 大規模シミュデータ(500k)で学習,実機で布操作タスク 成功率 70~90%(従来比+30~50%) 59 https://uniclothdiff.github.io/
  50. 論文まとめ( 24/110) DREAMGEN: Unlocking Generalization in Robot Learning through Video

    World Models Joel Jang, Seonghyeon Ye, Zongyu Lin, (NVIDA, etc.) ◦ 動画生成AIを活用し動画と疑似行動ラベルを自動生成 → 動画と疑似行動ラベル ◦ 人手データを1つでも、22種類 新行動や未見環境に適応 ◦ シミュレータ不要 合成データ生成によりロボット学習 スケーラビリティを大幅に拡張 ◦ 60 https://research.nvidia.com/labs/gear/dreamgen
  51. 論文まとめ( 25/110) Enabling Long(er) Horizon Imitation for Manipulation Tasks by

    Modeling Subgoal Transitions Shivam Jain, Sachit Sachdeva, Rohan Paul ◦ 背景: Heuristic subgoal switching is brittle and compounds errors. ◦ 提案: ST-GPT (Subgoal Transition-GPT), modeling explicit subgoal transitions; SGPT (Subgoal Guided Policy Transformer), implicitly encode these transitions ◦ 結論: Higher success and robustness on long-horizon manipulation suites. 61
  52. 論文まとめ( 26/110) EndoVLA: Dual-Phase Vision-Language-Action for Precise Autonomous Tracking in

    Endoscopy NG CHI KIT, Long Bai, Guankun Wang, Yupeng Wang, Huxin Gao, Kun yuan, Chenhan Jin, Tieyong Zeng, Hongliang Ren ◦ 背景: Endoscopic tracking needs robust prompt-grounded control under domain shifts. ◦ 提案: Dual-phase Fine tuning: supervised + RL fine-tuning on EndoVLA-Motion. ◦ 結論: Strong zero-shot generalization and precise tracking in diverse scenes. 62
  53. 論文まとめ( 27/110) Enter the Mind Palace: Reasoning and Planning for

    Long-term Active Embodied Question Answering (LA-EQA) Muhammad Fadhil Ginting, Dong-Ki Kim, Xiangyun Meng, Andrzej Marek Reinke, Navid Kayhani, David Fan, Amirreza Shaban, Mykel Kochenderfer, Ali-akbar Agha-mohammadi, Shayegan Omidshafiei ◦ 背景: EQA over weeks needs persistent memory + active exploration. ◦ 提案: Structured scene-graph memory with Value-of-Information-aware planning for LA-EQA. ◦ 結論: Better answer accuracy/efficiency than baselines on new long-term benchmark. 63
  54. 論文まとめ( 28/110) Few-Shot Neuro-Symbolic Imitation Learning for Long-Horizon Planning and

    Acting Pierrick Lorang, Johannes Huemer, Patrik Zips, Matthias Scheutz ◦ 背景: Few demos rarely expose high-level task structure. ◦ 提案: Learn symbolic task graphs + rules (Answer Set Programming) with diffusion-based low-level skills. ◦ 結論: Data-efficient, interpretable policies generalize to novel long-horizon variants. 64 Significantly better
  55. 論文まとめ( 29/110) Generalist Robot Manipulation beyond Action Labeled Data •

    Alexander Spiridonov, Jan-Nico Zaech, Nikolay Nikolov, Luc Van Gool, Danda Pani Paudel ◦ MotoVLA : 未ラベルデータを使った学習で未知 タスクへ 一般化 ▪ Dynamic Point Cloud Predictor : 自己教師あり学習. デモ動画から手 3D点群 時系列を抽出 → (G-DINO, SAM2, BootsTAPIR, MoGE 合わせ技) ▪ Action Alignment : 少量 ラベル付きデータで調整. 点群表現をロボット 実行可能アクションにマッピング ◦ シミュ上で 既存SOTA (π0, LAPA, ATMなど)を上回る成功率. 65 https://motovla.github.io/
  56. 論文まとめ( 30/110) GraspMolmo: Generalizable Task-Oriented Grasping via Large-Scale Synthetic Data

    Generation • Abhay Deshpande, Yuquan Deng, Arijit Ray, Jordi Salvador, Winson Han, Jiafei Duan, Yuke Zhu, Ranjay Krishna, Rose Hendrix ◦ 「安定した把持」で なく「タスクに適した把持」を目指したも ◦ PRISM : ACRONYMをGPT-4+人間検証でタスクに適した把持へ意味付けした拡張dataset ◦ GraspMolmo : Molomo (VLM) 調整版.画像+指示文を入力して6D把持位置を出力 66 https://abhaybd.github.io/GraspMolmo/ PRISM:タスク指向把持 ため dataset
  57. 論文まとめ( 31/110) Imitation Learning Based on Disentangled Representation Learning of

    Behavioral Characteristics Ryoga Oishi, Toshiaki Tsuji ◦ 背景: Policies need online modulation (e.g., “gentle”, “faster”) from qualitative directives. ◦ 提案: Learn disentangled latent behaviors linking modifier directives to motion edits. ◦ 結論: Real-time adaptation of motion characteristics in wiping/pick-place tasks. 67
  58. 論文まとめ( 32/110) ImMimic: Cross-Domain Imitation from Human Videos via Mapping

    and Interpolation Yangcen Liu, Woo Chul Shin, Yunhai Han, Zhenyang Chen, Harish Ravichandar, Danfei Xu ◦ 背景: Human→robot imitation suffers large embodiment and dynamics gaps. ◦ 提案: Retarget human motions then interpolate with few robot demos to bridge domains. ◦ 結論: Strong cross-embodiment transfer on real manipulation with minimal robot data. 68
  59. 論文まとめ( 33/110) Learning Impact-Rich Rotational Maneuvers via Centroidal Velocity Rewards

    and Sim-to-Real Techniques: A One-Leg Hopper Flip Case Study • Dongyun Kang, Gijeong Kim, JongHun Choe, Hajun Kim, Hae-Won Par ◦ ロボットにフロントフリップ ような高回転・大衝撃動作を習得させる ▪ Centroidal Angular Velocity (CAV) Reward : 全身 角 度を評価する報酬関数 ▪ Motor Operating Region (MOR) モデル : モータ 度依存トルク限界をモデル化 ▪ Transmission Load Regularization : 学習中に負荷を予測しギア破損を防ぐように誘導 ◦ 一脚ロボットが世界初 前方宙返りに成功 , ギア 負担を気にせず数回動作可能 69 https://youtu.be/atMAVI4s1RY TLR 効果検証
  60. 論文まとめ( 34/110) LodeStar: Long-horizon Dexterity via Synthetic Data Augmentation from

    Human Demonstrations • Weikang Wan, Jiawei Fu, Xiaodi Yuan, Yifeng Zhu, Hao Su ◦ 多段階 器用な操作 (dexterous manipulation)を学習する仕組み → 組み立て, 水やりetc.. ◦ LodeStar : 3つ ステップを組み合わせたフレームワーク ▪ Skill Segmentation : 人でもをVLMで追跡し分割 → 「スキル列」 分解 ▪ Synthetic Data Generation : 各スキルをsimでRLにより拡張 → 合成データ生成 ▪ Skill Routing Transformer : スキル つなぎ方「ルーティング方策」を学習 ◦ 結果:15回程度 人間デモでも高成功率で実機タスクを達成 70 https://lodestar-robot.github.io/
  61. 論文まとめ( 35/110) Lucid-XR: An Extended-Reality Data Engine for Robotic Manipulation

    • Yajvan Ravan, et al., (MIT CSAIL, FortyFive Labs) ◦ Lucid-XR : 物理シミュレーションを使ったデータ収集ツール (MuJoCoベース) ◦ 人 操作をロボットに変換し、さらに生成 AIで「背景・照明・外観」を多様化 ◦ 同じ30分 作業で、実機テレオペ 約 2倍 デモを収集。Augmentation込みで最大5倍 71 https://lucidxr.github.io
  62. 論文まとめ( 36/110) SAIL: Faster-than-Demonstration Execution of Imitation Learning Policies Nadun

    Ranawaka Arachchige, Zhenyang Chen, Wonsuhk Jung, Woo Chul Shin, Rohan Bansal, Pierre Barroso, Yu Hang He, Yingyan Celine Lin, Benjamin Joffe, Shreyas Kousik, Danfei Xu ◦ 背景: IL policies typically inherit slow human demo speed ◦ 提案: SAIL: Full-stack speed adaptation (smooth action inference, precise tracking, adaptive timing, latency-aware scheduling). ◦ 結論: Executes faster-than-demo in sim and on real robots while ensuring high success rate. 72
  63. Sampling-Based System Identification with Active Exploration for Legged Sim2Real Learning

    • Nikhil Sobanbabu, Guanqi He, Tairan He, Yuxiang Yang, Guanya Shi ◦ Unitree Go2, Go1で 歩行 RL.一部動作で 性能改善を目指す ◦ SPI-Active : ロボット 質量・摩擦・モーター特性を Realに近づける仕組み ◦ 情報量が多くなるようにロボットに動きを探させる → データセット 多様性を目指す ◦ 現状 オフライン みでリアルタイムに まだ未対応 論文まとめ( 37/110) 73 https://lecar-lab.github.io/spi-active_/
  64. 論文まとめ( 38/110) Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on

    Humanoids Toru Lin, Kartik Sachdev, Linxi “Jim” Fan, Jitendra Malik, Yuke Zhu ◦ ヒューマノイドに視覚ベースでsim2reap強化学習を行わせる → 触覚入力を使わない ◦ 数分 実データでシミュレータを自動調整し、報酬も「接触+物体状態」で設計 ◦ 箱持ち上げや物 受け渡しなどを未知物体に対しても実機で成功(成功率50〜80%) 74 https://toruowo.github. io/recipe
  65. 論文まとめ( 39/110) SLAC: Simulation-Pretrained Latent Action Space for Whole-Body Real-World

    RL Jiaheng Hu, Peter Stone, Roberto Martin-Martin ◦ シミュレータで事前に安全で使いやすい行動 部品(潜在アクション)を学習 ◦ 学習済み 潜在アクション空間をデコーダ経由で実機制御にマッピング ◦ 下流タスク 実機でホワイトボード拭きやゴミ片付けタスクを1時間未満で習得を確認 75 https://robo-rl.github.io/
  66. 論文まとめ( 40/110) SimShear: Sim-to-Real Shear-based Tactile Servoing Kipp McAdamFreud, Yijiong

    Lin, Nathan F. Lepora ◦ 剛体シミュレーションで再現が難しい触覚センサー 横ずれ(shear)をGANで再現する手法 ◦ shPix2pix : U-Net GAN. depth画像(sim)とshearベクトルから”実機風”触覚画像に変換 ◦ ShearNet : GDNN. 触覚画像から接触位置とshearを同時推定 ◦ 追従・協調持ち上げ動作で1-2mm誤差で動き,未知物体にも適応 ◦ 76 https://yijionglin.github .io/simshear/ 図a : 実機風触覚画像生成 図b : 高い追従性を持つ動作結果
  67. 論文まとめ( 41/110) TrackVLA: Embodied Visual Tracking in the Wild •

    Shaoan Wang, Jiazhao Zhang, et al., (Peking Univ., Galbot, et al.) ◦ TrackVLA : 認識(言語)と軌道計画を統合した VLA → 追跡能力(Embodied Visual Tracking:EVT) 獲得 ◦ Anchor-based Diffusion Transformer ▪ Anchor : 画像/地図中 ターゲット候補 ▪ Diffusion : アンカーを基準にした将来 位置分布を生成.アンカーに沿った軌道サンプル ▪ Transformer : アンカー候補を時系列関連付け ◦ 実機(Unitree Go2)で安定して人を追跡、屋外・遮蔽・高 移動にも対応 77 https://pku-epic.github.io/TrackVLA-web
  68. 論文まとめ( 42/110) Training Strategies for Efficient Embodied Reasoning William Chen,

    Suneel Belkhale, Suvir Mirchandani, Karl Pertsch, Danny Driess, Oier Mees, Sergey Levine ◦ 背景: Chain-of-thought improves VLA control but is slow and poorly understood. ◦ 提案: Identifies why CoT helps (better representations) and proposes lightweight reasoning strategies. ◦ 結論: Matches CoT-level success with substantially faster inference on VLA tasks. 78
  69. 論文まとめ( 43/110) TWIST: Teleoperated Whole-Body Imitation System Yanjie Ze, Zixuan

    Chen, Joao Pedro Araujo, Zi-ang Cao, Xue Bin Peng, Jiajun Wu, Karen Liu ◦ 背景: Humanoid whole-body teleoperation needs unified tracking of loco + manipulation. ◦ 提案: MoCap retargeting + RL+BC single controller for responsive whole-body imitation. ◦ 結論: Real-world humanoid shows coordinated loco-manipulation and expressive behaviors. 79
  70. 論文まとめ( 44/110) UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations

    Hanjung Kim, Jaehyun Kang, Hyolim Kang, Meedeum Cho, Seon Joo Kim, Youngwoon Lee ◦ 背景: Aligned human-robot (HR) paired data is scarce for video-guided imitation. ◦ 提案: Self-supervised cross-embodiment skill embeddings from large unlabeled HR videos. ◦ 結論: Human video prompts effectively drive robot policies in sim and real. 80
  71. 論文まとめ( 45/110) ZipMPC: Compressed Context-Dependent MPC Cost via Imitation Learning

    Rahel Rickenbach, Alan Lahoud, Erik Schaffernicht, Melanie Zeilinger, Johannes A. Stork ◦ 背景: Short-horizon MPC is real-time but long-horizon optimality. ◦ 提案: Learn context-dependent cost shaping, so short-horizon MPC mimics long-horizon behavior. ◦ 結論: Near long-horizon performance with real-time control; better generalization/safety. 81
  72. 論文まとめ( 46/110) In-Context Iterative Policy Improvement for Dynamic Manipulation Mark

    Van der Merwe, Devesh K. Jha ◦ 背景: Dynamic manipulation is hard due to hidden dynamics (mass, friction). ◦ 提案: Proposed method(ICPI) uses LLM in-context learning to iteratively adjust parametric policies from few interaction examples. ◦ 結論: Outperforms baselines in sim + real tasks, converging with ≤300 samples. 82
  73. 論文まとめ( 47/110) FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action

    Flow Policies Moritz Reuss, Hongyi Zhou, Marcel Rühle, Ömer Erdinc Yağmurlu, Fabian Otto, Rudolf Lioutikov ◦ 背景: State-of-the-art VLAs need billions of params and huge compute. ◦ 提案: Proposed method :FLOWER (950M params) with intermediate fusion + Global AdaLN, pruning VLM layers while boosting Flow Transformer. ◦ 結論: Matches SoTA across 190 tasks using only 200 GPU-hours; strong sim + real results. 83
  74. 論文まとめ( 48/110) Phantom: Training Robots Without Robots Using Only Human

    Videos Marion Lepert, Jiaying Fang, Jeannette Bohg ◦ 人 動画像をロボットに編集することでデータ拡張・転移を行うアプローチ ◦ 手 動き 計測と画像へ in-painting手法を用いることが技術的なコア ◦ マスキングやキーポイント等 従来法に対して優位.画像中 手を適切に書き換え,自然な 画像に編集することが性能 維持に重要であることを示した 84 https://phantom-human-videos.github.io/
  75. 論文まとめ( 49/110) The Sound of Simulation: Learning Multimodal Sim-to-Real Robot

    Policies with Generative Audio Renhao Wang, Haoran Geng, Tingle Li, Feishi Wang, Gopala Anumanchipalli, Trevor Darrell, Boyi Li, Pieter Abbeel, Jitendra Malik, Alexei A. Efros ◦ シミュレーション内で生成した「音」を活用してロボットが現実世界で複雑なタスクを実現 特にState Change ある状況において音 重要であることを主張 ◦ 従来 物理シミュレータと大規模な生成 AIモデル(特に音響生成モデル)による sim2real ◦ まず,シミュレータでロボットがタスクを行う「映像」。次に、そ 映像を入力として、生成 AIがそ 状況に応じたリアルな「音」を合成。 ◦ 現実世界 ロボットやデータを一切使わずに、 SIM内だけで視聴覚データセットを大規模に。 85
  76. 論文まとめ( 50/110) See, Point, Fly: A Learning-Free VLM Framework for

    Universal Unmanned Aerial Navigation Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu ◦ 行動予測を 2次元空間で 位置特定(空間的グラウンディング) ◦ 曖昧な言語指示を画像上 2D中間点として段階的に注釈付け ◦ 移動距離とともに 3D 移動ベクトルに変換してアクション生成 ◦ 強化学習( DRL)シミュレーション ベンチマークで従来 最高性能を 63%上回る成果 86
  77. 論文まとめ( 51/110) Robot Learning from Any Images Siheng Zhao∗ ,

    Jiageng Mao∗, Wei Chow, Zeyu Shangguan, Tianheng Shi, Rong Xue, Yuxi Zheng, Yijia Weng, Yang You, Daniel Seita, Leonidas Guibas, Sergey Zakharov, Vitor Guizilini, Yue Wang ◦ 単一画像から動作可能なロボット環境を構築 → 追加 ハードウェアやデジタルデータ不要。 ◦ 物理シーン 復元 + 視覚的ブレンディング → フォトリアルなデータ収集が可能。 87
  78. 論文まとめ( 52/110) RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action

    Models Jacky Kwok, Christopher Agia, Rohan Sinha, Matt Foutter, Shulu Li, Ion Stoica, Azalia Mirhoseini, Marco Pavone ◦ 推論時(実行時)にサンプリングする行動候補 数を増やすほど,ロボット 行動エラーがべき 乗則に従って減少する点に着目= ”行動 選択肢多いほど有利になる ” ◦ 生成(VLAによる行動候補 生成)と検証(行動 評価) 2ステップ アプローチを提案 ◦ いくつか サンプル うちも,最も評価 高い行動選択することで成功率を高めている ◦ 行動 評価 ため VLMをFinetune→ロボットデータ 不要.合成データ みを学習. 88
  79. 論文まとめ( 53/110) FastUMI: A Scalable and Hardware-Independent Universal Manipulation Interface

    with Dataset • Zhaxizhuoma et al. ◦ UMI PoseTrackingにT265をつけてより簡単に質 高いデータを収集可能にした ◦ URDFを前提として JointやTCP、Absolute,Relativeに変換することができる。 ◦ Depth推定やParallel jawに対する TCP 補正によって DP 精度を高めている 89
  80. 論文まとめ( 54/110) Eye, Robot: Learning to Look to Act with

    a BC-RL Perception-Action Loop • Justin Kerr et al. ◦ Active visionを強化学習と模倣学習 組み合わせによって実現する ◦ 強化学習で 360°動画 Webデータからシーン探索、追加収集したデータで物体探索を行う EyePolicy みを学習。 ArmPolicy Eye Actionを入力して BCで学習し、 EyePolicy Action 予測誤差を Rewardにして学習 ◦ 広いスペースを利用したりターゲットが切り替わるタスクにおいて有効 90
  81. 論文まとめ( 55/110) DexUMI: Using Human Hand as the Universal Manipulation

    Interface for Dexterous Manipulation • Mengda Xu et al. ◦ 多指ハンドを直感的に動かしてデータ収集し、模倣学習を行う ◦ 2種類 ハンドごとに Interfaceを設計し、 PoseとHandJoint Tracking、視覚と触覚データを収 集する。視覚 ハンド部分 実際 ロボットハンド 見た目に合うように Inpaint ◦ RelativeActionで視覚 Inpaintや触覚を入れると最も良い 91
  82. 論文まとめ( 56/110) AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies

    in the Real World • Zhiyuan Zhou et al. ◦ 人間 介入を最小限にしたポリシー 実環境自動評価 システム ◦ 成功判定とシーンリセットを自動化して、安全 ために行動空間 制限やリセットが成功したか 判定して継続して運用できるようにする。リセットまで失敗すると人間が介入する ◦ 各判定Policyを少量データで Finetuningして、人間が評価した場合と同程度になった。 92
  83. 論文まとめ( 57/110) BEHAVIOR Robot Suite: Streamlining Real-World Whole-Body Manipulation for

    Everyday Household Activities • Yunfan Jiang et al. ◦ MobileManipulation 全身運動 模倣学習。双腕協調と正確なナビゲーション、リーチング性 能を向上させる ◦ 頭と腕 動きをテレオペしたデータから、1人称視点 PointCLoudを入力してベース、胴体、 アーム 順に条件付けして DiffusionPolicyで行動を生成する ◦ 緊急停止が減って、ベースや胴体 Actionが性能向上 要因となっている。 93
  84. 論文まとめ( 58/110) D-Cubed: Latent Diffusion Trajectory Optimisation for Dexterous Deformable

    Manipulation • Jun Yamada et al. ◦ 多指ハンド 動作生成にサンプル軌道 ガイドを加えて最適化する ◦ Playデータから潜在表現をえるように学習し、細かいスキル シーケンスを LDMから複数サンプ リング、これらを DecordしてSimで行い最もゴールに近いも を Guidanceとして選択して最適な Actionを出す。 ◦ Skill -Latentなしより 成功率が高い 94
  85. 論文まとめ( 59/110) FLARE: Robot Learning with Implicit World Modeling •

    Ruijie Zheng et al. ◦ Actionと同時に将来 状態を Embeddiingとして推定して模倣学習性能を向上させる ◦ ロボットデータ Action付きで学習し、人間 データ Actionなしとしてマスクして将来 状態を VLMに通した Tokenを予測するように学習する。 ◦ Human 動画を一緒に学習することで大きく性能が上がる 95
  86. 論文まとめ( 60/110) ManipBench: Benchmarking Vision-Language Models for Low-Level Robot Manipulation

    • Enyu Zhao et al. ◦ 操作に特化した VQAデータセット。手先位置や軌道レベルで画像から予測する ◦ DROIDやBridgeからGrid ,PointLevelで情報を抽出。布 操作 手動でアノテーションし、 Simulationで 接触点などに関するデータを収集 ◦ GPTやGeminiでもある程度推論 可能で OpenSource Qwen等でもRealデータに 同等以上 96
  87. 論文まとめ( 61/110) Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or

    Robot Hardware • Justin Yu et al. ◦ 実データから対象物体をスキャンし、 HumanDemoをロボット向けに拡張 ◦ 3DGSでスキャンした後に、 4D-DPMで物体トラッキング、操作対象 位置を変えて Trajectoryを 拡張。Simulation ロボットに合うように軌道と Imageを生成して学習する ◦ 少ないHumanDemoで高い性能を実現 97
  88. 論文まとめ( 62/110) Focusing on What Matters: Object-Agent-centric Tokenization for Vision

    Language Action Models • Rokas Bendikas, Daniel Dijkman, Markus Peschl, Sanjay Haresh, Pietro Mazzaglia ◦ VLAに入力される vision token 背景や無関係な物体に関する tokenを多く含み冗長である → 対象物体 (object)やEE(agent) 画像特徴量 みを入力できれ LLM 系列長を短くできる ◦ 環境 segmentationおよびEE bboxを取得し,対象物体および EE 特徴量 みを使用 ◦ OpenVLA 約2倍 度で収束し, Libero simulatorおよび実機実験において良好な結果 98
  89. 論文まとめ( 63/110) ReWiND: Language-Guided Rewards Teach Robot Policies without New

    Demonstrations • Jiahui Zhang et al. ◦ 新しいデモなしで Rewordを設計する。タスク進行度合い 推定、逆再生で失敗を作るなどして 進行度パターンを複数作る ◦ Video ,Languageから、Sequentalなも を理解する Transformerから推定するように学習する。 Offline ,Onlineで良い。 ◦ Pre-train時 弱いが Finetuningに強い。失敗をしないように気をつけて動かすようになってい る。 99
  90. 論文まとめ( 64/110) Versatile Loco-Manipulation through Flexible Interlimb Coordination • Xinghao

    Zhu et al. ◦ Selected LegとArmをどうやって制御することと、歩行を維持することを学習 ◦ Arm み、Arm+どれか 脚を選択したマスクを入力して、 TargetからActionを生成する。 ◦ Contact pointを入力し、 Model-BaseでArm操作、モードごとに歩行する RLで全身動作を作る ◦ フェーズごとにモードを切り替えながら動作を実行できる 100
  91. 論文まとめ( 65/110) X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real • Prithwish Dan

    et al. ◦ TopDowngraspなどロボットが実行しやすい Motionに人間デモから変換して学習 ◦ 2DGSからFoundationPoseでTracking ObjectMotion→RLで学習->こ 軌道を拡張して IL ◦ SimとReal ImageEnbeddingが近くないため細かい推定が間違えことを防ぐため、 Alignする LossをIL 学習時に組み込む ◦ SImpletaskに HandRetargetingがいいが、難しいタスクになると性能 高い 101
  92. 論文まとめ( 66/110) One View, Many Worlds: Single-Image to 3D object

    Meets Generative Domain Randomization for One-Shot 6D Pose Estimation • Zheng Geng et al. ◦ 6DposeをOneshotから学習。 1枚 画像から物体 TextureMeshをDiffusionmodelから生成 し、 Pose推定 学習に使う ◦ SuperGlueで画像ない物体とテンプレート マッチングし PnP SOlveとScale最適化し Pose推定。 推定された Poseと画像を入力して FoundationPoseを使いRefinementを何度か実行 102
  93. 論文まとめ( 67/110) Reactive In-Air Clothing Manipulation with  Confidence-Aware Dense Correspondence

    and Visuotactile Affordance • Neha Sunil et al. ◦ 服 状態 推定を Simで学習し、 GraspAffordanceをSim+Realで学習する ◦ いろんな形状やテクスチャ 服を用意する。変形後 Simモデルと元 モデルと 関連どを学 習し、Querypointを入力したらそれに対応する CorrespondenceをMapから出力する。 ◦ Grasp affordance Depthを利用して大まかな候補を Simで生成しな ち、 Realで把持して tactileでSuccess判定をして affordanceモデルを Finetuning ◦ Graspや服 状態からシーケンスに沿って適切に動作を実行する 103
  94. 論文まとめ( 68/110) ControlVLA: Few-shot Object-centric Adaptation for Pre-trained Vision-Language-Action Models

    • Puhao Li, Yingying Wu, Ziheng Xi, Wanlin Li, Yuzhe Huang, Zhiyuan Zhang, Yinghan Chen, Jianan Wang, Song-Chun Zhu, Tengyu Liu, Siyuan Huang ◦ 大規模なロボット操作データによる VLAモデル 事前学習 有望だが,下流タスクへ 適応に 依然として大量 タスク特化実世界データが必要 ◦ GroundingDINO + SAM2からタスクに関連する対象物体をセグメンテーションにして policyに条件 付け ◦ ControlNetに着想を得た,ゼロ初期化された KV projectionを追加することで事前学習済み policyを 壊さずに,継続的に object-centric representationを統合可能 ◦ few-shotでベースライン (Diffusion Policy, π0, etc) 成功率を大きく上回る 104
  95. 論文まとめ( 69/110) TA-VLA: Elucidating the Design Space of Torque-aware Vision-Language-Action

    Models • Zongzheng Zhang, Haobo Xu, Zhuo Yang, Chenghao Yue, Zehao Lin, Huanang Gao, Ziwei Wang, Hao Zhao ◦ Manipulationにおいて接触や摩擦など 力学的なフィードバックを正しく認識すること 重要 ◦ π0にトルク情報 入れ方を 3種類検討 ◦ 将来トルク 予測を補助タスクにすることでより頑健に ◦ 接触 多いタスク(例:ボタン押し・プラグ差し込み・ドアハンドル回し)で大幅に成功率向上 105
  96. 論文まとめ( 70/110) GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale

    Synthetic Action Data • Shengliang Deng, Mi Yan, Songlin Wei, Haixin Ma, Yuxin Yang, Jiayi Chen, Zhiqi Zhang, Taoyu Yang, Xuheng Zhang, Heming Cui, Zhizheng Zhang, He Wang ◦ VLAモデルを学習するために必要な実ロボットデータ 収集 高コスト ◦ Isaac Sim を用いたフォトリアリスティックレンダリングと大規模ドメインランダム化を用いて大規模合 成データセット SynGrasp-1B 構築 ◦ 照明変化・背景変化・高さ変更・ディストラクタあり環境を含む 300 試行で, 90%以上 成功率 106
  97. 論文まとめ( 71/110) KineDex: Learning Tactile-Informed Visuomotor Policies via Kinesthetic Teaching

    for Dexterous Manipulation • Di Zhang, Chengbo Yuan, Chuan Wen, Hai Zhang, Junqiao Zhao, Yang Gao ◦ 触覚を強化したデモンストレーションを収集。視覚と触覚から情報を得て動作を制御できるビ ジュアルモーター方針を訓練することで複雑な操作を達成 ◦ 人がロボットハンドを直接動かして教示・高品質な触覚データを含むデモンストレーションを効率 的に収集。 ◦ 力加減が重要な複雑なタスクでも高い成功率を達成。 107
  98. 論文まとめ( 72/110) KineSoft: Learning Proprioceptive Manipulation Policies with Soft Robot

    Hands • Uksang Yoo, Jonathan Francis, Jean Oh, Jeffrey Ichnowski ◦ 柔軟なソフトロボットハンドを人間が直接手で教示する「 KineSoft」を提案 ◦ ソフトハンド 内部に埋め込まれた 12個 伸縮センサー(導電性ゴム)によりリアルタイムで 形状推定. ◦ 内部センサー 情報からロボットハンド 3D形状を正確に推定.形状情報に基づき模倣学習を 行うことで、複雑なタスク 学習を可能に. 108
  99. 論文まとめ( 73/110) SafeBimanual: Diffusion-based trajectory optimization for safe bimanual manipulation

    • Haoyuan Deng, Wenkai Guo, Qianzhun Wang, Zhenyu Wu, Ziwei Wang ◦ 双腕ロボット 安全な操作を実現するため、拡散モデルベース 方策を最適化 ◦ Vision-Language Model (VLM) を活用してタスク 状況に応じた安全コストを動的に適用 ◦ 衝突や物体 破損といった危険な動作を回避 ◦ 双腕作業で起こりうるシーンを仮定し,知識をベースにした改善を実現 ◦ XX 109
  100. 論文まとめ( 74/110) Deep Reactive Policy: Learning Reactive Manipulator Motion Planning

    for Dynamic Environments • Jiahui Yang, Jason Jingzhou Liu, Yulong Li, Youssef Khaky, Kenneth Shaw, Deepak Pathak ◦ 背景: Classical motion planners are too slow for highly dynamic environments. ◦ 提案: Imitating Motion Planing with ACT: train motion planning dataset by IL for real-time obstacle avoidance. ◦ 結論: Outperforms MPC and RL baselines, enabling fast and safe manipulation in cluttered, dynamic settings. 110
  101. 論文まとめ( 75/110) ATK: Automatic Task-driven Keypoint Selection for Robust Policy

    Learning • Yunchu Zhang, Shubham Mittal, Zhengyu Zhang, Liyiming Ke, Siddhartha Srinivasa, Abhishek Gupta ◦ 背景: Many policies rely on hand-engineered or heuristic visual keypoints. ◦ 提案: ATK automatically selects task-relevant keypoints using distillation-based algorithm. ◦ 結論: Produces more robust policies across manipulation tasks compared to fixed or random keypoint choices. 111
  102. 論文まとめ( 76/110) ManiFlow: A General Robot Manipulation Policy via Consistency

    Flow Training • Ge Yan, Jiyue Zhu, Yuquan Deng, Shiqi Yang, Ri-Zhao Qiu, Xuxin Cheng, Marius Memmel, Ranjay Krishna, Ankit Goyal, Xiaolong Wang, Dieter Fox ◦ 背景: Existing diffusion-based VLAs often suffer from slow inference ◦ 提案: ManiFlow, a policy trained by consistency flow matching, enforcing the consistency of partially-noisy data points to final target data ◦ 結論: Achieves strong generalist performance with fast inference time across diverse benchmarks. 112
  103. 論文まとめ( 77/110) Wheeled Lab: Modern Sim2Real for Low-cost, Open-source Wheeled

    Robotics • Tyler Han et al. (University of Washington) ◦ 低価格(10万円台) RCカーでSim2Real学習キットを作る ◦ Wheeled Lab : ▪ Isaac LabとRCカーを統合した学習基盤 ▪ 大規模並列化, 環境乱択化, センサ シミュなどなど ◦ ドリフト、段差走破、カメラナビゲーションを実機で再現 ◦ 実機動作も順調でゼロショット転移にも成功 113 https://uwrobotlearning.github.io/WheeledLab/ パズル型 プログラミングソフト
  104. 論文まとめ( 78/110) VT-Refine: Learning Bimanual Assembly with Visuo-Tactile Feedback via

    Simulation Fine-Tuning • Binghao Huang, et al., (Columbia Univ., NVIDIA..) ◦ (実デモ+触覚シミュレーション+ RL微調整)を用いた両手アーム 協調動作 ◦ 高解像度 触覚センサをシミュレータで再現し、大量 仮想練習で方策を改善 ▪ 高解像度(12×32点) 柔軟触覚パッド「 FlexiTac」を再現 ◦ 実機で学習したVision-onlyに比べ +40%向上 114 https://binghao-huang.github.io/vt_refine/
  105. 論文まとめ( 79/110) Motion Blender: Gaussian Splatting for Dynamic Reconstruction •

    Xinyu Zhang, Haonan Chang, Yuhan Liu, Abdeslam Boularias ◦ 背景: Dynamic scene reconstruction is hard due to fast object motion and occlusions. ◦ 提案: Motion Blender extends Gaussian Splatting with temporal blending to reconstruct continuous motion. ◦ 結論: Produces more accurate reconstructions and trajectories for downstream robot tasks. 115
  106. 論文まとめ( 80/110) One Demo is Worth a Thousand Trajectories: Action-View

    Augmentation for Visuomotor Policies • Chuer Pan, Litian Liang, Dominik Bauer, Eric Cousineau, Benjamin Burchfiel, Siyuan Feng, Shuran Song ◦ 背景: Collecting large-scale robot demos is expensive. ◦ 提案: Augments a single demonstration into many trajectories using action-view interpolation + augmentation. ◦ 結論: Minimize human cost to collect demo drastically while retaining high success rates. 116
  107. 論文まとめ( 81/110) “Stack It Up!”: 3D Stable Structure Generation from

    2D Hand-drawn Sketch • Yiqing Xu, Linfeng Li, Cunjun Yu, David Hsu ◦ ある視点から 構 物を描いた抽象的なスケッチから、ゴールを設計する手法 ◦ スケッチから 3D構 を表すグラフを構築し、実際 構 を Diffusion Modelで生成。シミュレー ションで不安定な部分を検知し、グラフを修正する。これを繰り返す。 ◦ 実験で 、こ 手法を用いて、スケッチから安定した構 を積み上げるようにロボット 学習で きた。 117
  108. 論文まとめ( 82/110) Action-Free Reasoning for Policy Generalization • Jaden Clark,

    Suvir Mirchandani, Dorsa Sadigh, Suneel Belkhale ◦ アクションラベルがついていない人間 動きを映したデータを用いて学習を可能にし、環境とタスク 多様 性に対するモデル 汎化を進める手法。 ◦ アクション 生成 前に、タスクに対して自然言語でプランを立てるようにモデルを訓練。アクションラベル が付いていない人間 動作データで 、プランだけを推論させて訓練する。 ◦ ラベル付き データセットに 存在しないタスク、環境にも高いパフォーマンスを発揮。 118
  109. 論文まとめ( 83/110) Adapt3R: Adaptive 3D Scene Representation for Domain Transfer

    in Imitation Learning • Albert Wilcox, Mohamed Ghanem, Masoud Moghani, Pierre Barroso, Benjamin Joffe, Animesh Garg ◦ トレーニングデータ分布外 ケースにも対応できるよう、任意 モデルと統合可能かつ汎用的な 特徴量を RGBD画像から抽出するエンコーダを提案。 ◦ RGBD画像に対して、点群化と CLIPによる意味的特徴量 抽出を行う。点群 座標と意味的特 徴量 cross attentionで統合され、単一 特徴量ベクトルとして出力される。 ◦ 提案手法を用いて学習したモデル 、 OODデータで 推論でもパフォーマンス低下しにくい 119
  110. 論文まとめ( 84/110) ActLoc: Learning to Localize on the Move via

    Active Viewpoint Selection • Jiajie Li, Boyang Sun, Luca Di Giammarino, Hermann Blum, Marc Pollefeys ◦ ナビゲーションタスクにおいて、パスに応じてカメラ視点 計画も動的に行い、ローカライゼーション 精度を高め る手法 ◦ SfMデータを用いて訓練を行い、与えられた座標に対して各視野 ローカライゼーション 難易度を表すマップを モデルが返すようにする。推論時に 、そ マップとカメラ 姿勢変化 難易度を表すマップとかけ合わせ、最適 な視野を選ぶ。 ◦ 提案手法 ローカライゼーション 成功率で SOTAを達成 120
  111. 論文まとめ( 85/110) LocoFormer: Generalist Locomotion via Long-context Adaptation • Min

    Liu, Deepak Pathak, Ananye Agarwal ◦ あらゆる種類 実機にzero-shotで対応し、推論時 実機 状態 変化にも適応する歩行モデルを提案。 ◦ 極めて長いコンテキストを保持できる Transformer-XLをPolicyに用い、シミュレーション上訓練する。シミュ レーション内で ランダムに決定された様々なパラメータをもとにロボットが次々に生成され、それを歩行さ せるようにモデル 学習する。 ◦ 実世界でも初見 実機・実機 変化に zero-shotで対応し、安定した歩行が可能。 121
  112. 論文まとめ( 86/110) CLONE: Closed-Loop Whole-Body Humanoid Teleoperation for Long-Horizon Tasks

    • Yixuan Li, Yutang Lin, Jieming Cui, Temgyu Liu, Wei Liang, Yixin Zhu, Siyuan Huang ◦ MRヘッドセットから 入力でヒューマノイド 全身を一気に遠隔操作する手法を提案。 ◦ ロボット全体 情報で学習した教師モデルから、 MRヘッドセット 情報 みを入力とする生徒モデルを知 識蒸留して訓練する。ロボット 全身を制御するために生徒モデルに Mixer-of-Expert構 を用いる。 ◦ スクワット、ジャンプなどといった全身運動を正確かつリアルタイムに遠隔操作可能 122
  113. 論文まとめ( 87/110) DiWA: Diffusion Policy Adaptation with World Models •

    Akshay L Chandra, Iman Nematollahi, Chenguang Huang, Tim Welschehold, Wolfram Burgard, Abhinav Valada ◦ Diffusion Policies 強化学習による fine-tuningに 、コストがかかる大量 実世界で 試行が必要。これを回避 するために、 World modelを用いた強化学習 フレームワークを提案。 ◦ ある状態から次 状態へ 遷移を予測する世界モデルと、ある状態における報酬を返すモデルを実世界データを 用いて訓練。行動による状態 遷移と報酬 取得をそれら モデルに担わせ、 Diffusion Policiesをfine-tuning. ◦ 世界モデルによる強化学習 みで、 CALVINベンチマーク 8つ タスクでパフォーマンスを改善。実世界へ 転 移もzero-shotで達成した。 123 https://github.com/acl21/diwa
  114. 論文まとめ( 88/110) Merging and Disentangling Views in Visual Reinforcement Learning

    for Robotic Manipulation • Abdulaziz Almuzairee, Rohan Prashant Patil, Dwait Bhatt, Henrik I Christensen ◦ 方策学習において複数カメラを使うことに ,オクルージョンに強い・より良いシーン表現が得ら れることでサンプル効率が良い,という利点がある ◦ 学習時にあったカメラを推論時に利用できない場合に性能低下が大きいという問題がある ◦ 強化学習において複数ビューを Mergeしたfeatureと個別ビュー featureを両方入れて下流 actorとcriticを学習させる手法を提案 ◦ 複数ビュー サンプル効率と単一ビュー 視点欠損に対する robust性を両立 124
  115. 論文まとめ( 89/110) Steerable Scene Generation with Post Training and Inference-Time

    Search • Nicholas Ezra Pfaff, Hongkai Dai, Sergey Zakharov, Shun Iwase, Russ Tedrake ◦ シミュレーションで方策を学習するために ,ランダムでなく現実的なシーンが多数必要 ◦ こ シーン生成を自動化する研究 ◦ 手続き的に生成したシーンデータを基に Diffusion生成モデルを学習 ◦ こ 生成モデルから希望する条件にあったシーンを生成する ▪ 生成方法に ,言語による条件づけ, 強化学習による事後学習, 推論時Monte Carlo Tree Searchなどを 利用できる 125
  116. 論文まとめ( 90/110) DexSkin: High-Coverage Conformable Robotic Skin for Learning Contact-Rich

    Manipulation • Suzannah Wistreich, Baiyu Shi, Stephen Tian, Samuel Clarke, Michael Nath, Chengyi Xu, Zhenan Bao, Jiajun Wu ◦ Low-cost (10US$), high-performance (計測レンジが広く,ヒステレシスも小さい) , 柔軟(多様な 形状に貼ることが可能)な分布形触覚センサ ◦ 電極を密に並べた静電容量型 ◦ 指全体を覆うように装着し, in-hand 姿勢変更や輪ゴムを めるタスクを学習 126
  117. 論文まとめ( 91/110) Fast Flow-based Visuomotor Policies via Conditional Optimal Transport

    Couplings • Andreas Sochopoulos, Nikolay Malkin, Nikolaos Tsagkas, Joao Moura, Michael Gienger, Sethu Vijayakumar ◦ Conditional Flow Matching(CFM)で データ分布とノイズ分布 間 ベクトル場を sampleから定義するこ とでsimulation-free 学習を可能にする ◦ ベクトル場を作るため sample pairing方法として最適輸送(Optimal Transport; OT)がある ◦ しかし,条件付き生成モデルにおいて 単純な OPによるsample pairing 上手く行かなかった ◦ 条件変数 距離も追加して,同じ条件 sample間でpairが構成されやすくする手法 COT-CFMを提案 127
  118. 論文まとめ( 92/110) First Order Model-Based RL through Decoupled Backpropagation •

    Joseph Amigo, Rooholla Khorrambakht, Elliot Chane-Sane, Nicolas Mansard, Ludovic Righetti ◦ シミュレータ勾配を用いた強化学習 学習(サンプル)効率が高いという利点があるが,勾配を 計算できないシミュレータも多い ◦ 一方,Model-based RL dynamics modelを学習することで勾配を近似するが, compounding errorにより方策性能が低下するという課題がある ◦ 本論文で ,シミュレータで forward計算(trajectory generation),学習したモデルで backward 計算(勾配)と両者を分離( decoulpe)する手法を提案 ◦ 標準的手法( PPOなど)と同等 汎化性を維持しつつ,高いサンプル効率を達成 128
  119. 論文まとめ( 93/110) Latent Adaptive Planner for Dynamic Manipulation • Donghun

    Noh, Deqian Kong, Minglu Zhao, Andrew Lizarraga, Jianwen Xie, Ying Nian Wu, Dennis Hong ◦ Dynamicなnon-prehensileタスク プランニングを,潜在空間で 推論として解く ◦ 人 動作から変分ベイズで事後確率モデルを学習 ◦ 実行時にモデルを更新することで適応性が高い軌道生成 ◦ 飛んでくる箱をキャッチするタスクで, MPC,Behavior Cloning,Diffusion Policyに比べキャッチン グ時 エネルギー効率を大きく改善 129
  120. 論文まとめ( 94/110) Leveraging Correlation Across Test Platforms for Variance-Reduced Metric

    Estimation • Rachel Luo, Heng Yang, Apoorva Sharma, Sushant Veer, Edward Schmerling, Marco Pavone ◦ 目的変数 推定精度を,相関がある別 変数 (surrogate) サンプルを使って向上させる統計 的手法を制御変量( control avriates)法という ◦ これをsim-to-realに適用. simで 評価を利用して目的指標 realで 推定精度を向上 ◦ 指標:他 車まで 距離等(自動運転), 度追従性(四足歩行) 130
  121. 論文まとめ( 95/110) Omni-Perception: Omnidirectional Collision Avoidance of Legged Robots in

    Dynamic Environments • Zifan Wang, Teli Ma, Yufei Jia, Xun Yang, Jiaming Zhou, Wenlong OUYANG, Qiang Zhang, Junwei Liang ◦ 脚ロボット 強化学習においてノイズ 多い Depth画像 代わりに LiDARセンサを利用 ◦ 並列シミュレータで利用可能な LiDARシミュレーション ツールキットを開発 ◦ LiDAR 点群から危険度を予測する PD-RiskNet 出力を強化学習 policyに入力する ◦ 四脚ロボットが実世界で紹介物を避けながら移動できることを確認 131 https://github.com/aCodeDog/OmniPerception
  122. 論文まとめ( 96/110) Learning a Unified Policy for Position and Force

    Control in Legged Loco-Manipulation • Peiyuan Zhi, Peiyang Li, Jianqin Yin, Baoxiong Jia, Siyuan Huang ◦ 位置だけでなく力 指令値を指定可能な強化学習手法を提案している ◦ spring-mass-damperを仮定し位置 誤差から力を予測している ◦ アーム付き四脚ロボットやヒューマノイドが物体を持ち上げたり壁を押す動作で検証 132 https://unified-force.github.io/
  123. 論文まとめ( 97/110) FACET: Force-Adaptive Control via Impedance Reference Tracking for

    Legged Robots • Botian Xu, Haoyang Weng, Qingzhou Lu, Yang Gao, Huazhe Xu ◦ 四脚ロボットが外力 下でそ 場に留まる stiffnessを指定できる強化学習手法を提案 ◦ インピーダンスシステム (spring-mass-damper)に沿った挙動をするように、 定数などを指定 できる強化学習 policyを構築 ◦ 定数を小さくして外力に馴染んだり、 定数を大きくして重たいも を引っ張ったり 133 https://facet.pages.dev/
  124. 論文まとめ( 98/110) Divide, Discover, Deploy: Factorized Skill Learning with Symmetry

    and Style Priors • Rafael Cathomen, Mayank Mittal, Marin Vlastelica, Marco Hutter ◦ 四脚ロボット 強化学習において、明示的に動作を指定する報酬関数を指定せずに自動的に 様々な動作を生成する手法を提案 ◦ 移動距離や姿勢 多様性を高める rewardを指定しながら、前後左右対称 報酬や 度罰則を 指定している ◦ 四脚ロボットが前後左右回転移動をしたり胴体を上下や傾けたりする動作が自動的に獲得 134 https://leggedrobotics.github.io/d3-skill-discovery/
  125. 論文まとめ( 99/110) Non-conflicting Energy Minimization in Reinforcement Learning based Robot

    Control • Skand Peri, Akhil Perincherry, Bikram Pandit, Stefan Lee ◦ ロコモーション 強化学習 報酬における、タスク性能とエネルギー消費 トレードオフ係数を 自動的に学習する手法を提案 ◦ タスク性能とエネルギー指標 多目的最適化問題とみなし、エネルギー指標 勾配 、タスク 性能 勾配と直交する成分 みを考慮することで2つ 勾配 不整合を回避し最適化 135 https://pvskand.github.io/projects/PEGRAD
  126. 論文まとめ( 100/110) ToddlerBot: Open-Source ML-Compatible Humanoid Platform for Loco-Manipulation •

    Haochen Shi, Weizhuo Wang, Shuran Song, Karen Liu ◦ ToddlerBotという低コストでオープンソース 小型 (0.56m, 3.4kg) ヒューマノイドをロボット学 習用に提案 ◦ アクチュエータに Dynamixelを利用しており、 Dynamixel システム同定について詳説あり ◦ Open-hardware Workshop 発表で 、ロボットが側転する動画や、実機がコンベア上で歩行 動作を学習し、転びそうになったら Universal Robotsで釣り上げる動画を紹介 136 https://toddlerbot.github.io/
  127. 論文まとめ( 101/110) Visual Imitation Enables Contextual Humanoid Control • Arthur

    Allshire, Hongsuk Choi, Junyi Zhang, David McAllister, Anthony Zhang, Chung Min Kim, Trevor Darrell, Pieter Abbeel, Jitendra Malik, Angjoo Kanazawa ◦ 画像列から シーンポイントクラウド 復元と画像から 人間姿勢復元を合わせて、動画から 三次元シーンにおける人間 運動を復元 ◦ 人間 運動を参照にしながら三次元シーンで条件付けされたヒューマノイド policyを学習し sim2realにより実機でデプロイ 137 https://www.videomimic.net/
  128. 論文まとめ( 102/110) HuB: Learning Extreme Humanoid Balance • Tong Zhang,

    Boyuan Zheng, Ruiqian Nai, Yingdong Hu, Yen-Jen Wang, Geng Chen, Fanqi Lin, Jiongye Li, Chuye Hong, Koushil Sreenath, Yang Gao ◦ 外力へ ロバスト性にすぐれたヒューマノイド バランス policyを強化学習で獲得 ◦ リファレンス動作へ 近さや重心位置、接触に関する報酬を指定している ◦ 人間 モーキャプデータをリファレンスとして domain randomizationによる強化学習 ◦ Unitree G1が片足立ちでボールをぶつけられても転 ないことを確認している 138 https://hub-robot.github.io/
  129. 論文まとめ( 103/110) Mobi-π: Mobilizing Your Robot Learning Policy • Jingyun

    Yang, Isabella Huang, Brandon Vu, Max Bajracharya, Rika Antonova, Jeannette Bohg ◦ Mobile manipulationにおいて、ナビゲーションと操作を切り離し、学習済み 操作方策に 最適なベース姿勢を探索する問題 policy mobilization 定式化 ◦ Policy mobilization ため フレームワーク Mobi-π 提案 ▪ Policy mobilization 難しさ 定量化、RoboCasaベース タスク群、分析 ため 可視化ツール 139 https://mobipi.github.io/
  130. 論文まとめ( 104/110) TopoCut: Learning Multi-Step Cutting with Spectral Rewards and

    Discrete Diffusion Policies • Liquan Wang, Jiangjie Bian, Eric Heiden, Animesh Garg ◦ 多段階切断方策学習 ため 高忠実度シミュレータ 提案 ◦ 物体 切断結果評価 ため ポーズ不変スペクトル報酬 導入 ◦ 条件付き離散拡散過程による切断動作予測 モデル化 提案 140 https://topocut.github.io/
  131. 論文まとめ( 105/110) CLASS: Contrastive Learning via Action Sequence Supervision for

    Robot Manipulation • Sung-Wook Lee, Xuhui Kang, Brandon Y. Yang, Yen-Ling Kuo ◦ 視点や見た目 異なるエピソードに対し,行動列 Dynamic Time Warpingから類似度を計算 ◦ 類似した正例を引き寄せる対照学習 (CLASS) を導入 ◦ CLASS+DPで 視点や外観 シフトが発生するタスクでもで平均 75% 成功率を達成 141 (A)通常コンパクトな空間に獲得可能な視覚表現も, (B)視点が異なるとそ 視点に沿った表現を個別に学習してしまう. (C) CLASS 行動列で類似度を計測し,視点が異なっても類似する行動 近づける対照学習を導入する. https://class-robot.github.io/
  132. 論文まとめ( 106/110) LaDi-WM: A Latent Diffusion-Based World Model for Predictive

    Manipulation • Yuhang Huang, Jiazhao Zhang, Shilong Zou, Xinwang Liu, Ruizhen Hu, Kai Xu ◦ 将来状態 予測 方策 性能向上につながるが,高画質ほど正確な視覚状態 予測 困難 → 代わりに幾何的 (DINO)・意味的 (Siglip)な特徴を併せた潜在表現 z を予測させる ◦ 世界モデルで先読みした潜在表現を使って行動をアップデートする拡散ポリシーで , LIBELO-LONGで27.9%, 実機タスクで 20% 性能向上が見られた 142 https://github.com/GuHuangAI/LaDiWM
  133. 論文まとめ( 107/110) π 0.5 : a Vision-Language-Action Model with Open-World

    Generalization • Kevin Black, Noah Brown, James Darpinian, Karan Dhabalia, Danny Driess, Adnan Esmail, Michael Equi, Chelsea Finn, Niccolo Fusai, Manuel Y. Galliker, Dibya Ghosh, Lachy Groom, Karol Hausman, Brian Ichter, Szymon Jakubczak, Tim Jones, Liyiming Ke, Devin LeBlanc, Sergey Levine, Adrian Li-Bell, Mohith Mothukuri, Suraj Nair, Karl Pertsch, Allen Z. Ren, Lucy Xiaoyang Shi, Laura Smith, Jost Tobias Springenberg, Kyle Stachowicz James Tanner, Quan Vuong, Homer Walke, Anna Walling, Haohuan Wang, Lili Yu, Ury Zhilinsky ◦ Mobile Manipulator ため 大規模 VLA 構築 ◦ 高レベルな指示文を低レベルなサブタスクに分割して系列として実行 143 https://github.com/Physical-Intelligence/openpi
  134. 論文まとめ( 108/110) COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping

    • Jun Yamada et al. ◦ 両手を使って物体を持ち上げる操作 学習手法。把持する Policyと抑える Policyを利用する ◦ 物体を抑える Policy データを自動で収集し POlicyを学習した ち、把持 Policy学習に利用し るる、価値関数から 勾配を使って抑える動作ををよりよくできる。 ◦ RLから Policyを利用してえたデモを収集して Real シーンに対して 3D 入力をベースに動作 を実行できる。 144
  135. 論文まとめ( 109/110) Vision in Action: Learning Active Perception from Human

    Demonstrations • Haoyu Xiong et al. ◦ 視点変化をデモンストレーションから学習する ◦ VRで視点 3D情報を視覚化して頭 動きを変えて視点が変わるように視覚提示する ◦ 3Dを利用するより Activeに視点が切り替わる 2D視点 方が成功率が高い 145
  136. 論文まとめ( 110/110) GENNAV: Polygon Mask Generation for Generalized Referring Navigable

    Regions • Kei Katsumata et al. ◦ 画像とINstructionに基づいてゴール状態 領域 Polygonで生成する ◦ 物体が存在しているか、もし存在していたら複数な か単一な かを認識することとそ セグメ ンテーションタスクを同時に解くモデルを構築 ◦ 実環境においても Zero-shotで認識が可能になっている 146