Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第65回コンピュータビジョン勉強会

 第65回コンピュータビジョン勉強会

Avatar for TSUKAMOTO Kenji

TSUKAMOTO Kenji

November 14, 2025
Tweet

More Decks by TSUKAMOTO Kenji

Other Decks in Technology

Transcript

  1. 関連研究 RobotにおけるAffordance • 典型的な例ではアフォーダンスは対象物の機能として定義され、対象物の本質、操作方法、目標物と の空間的関係を含み、観察と行動を直接的に関連付ける。 ◦ セグメンテーション、キーポイント、画像特徴量から 6DOF把持推定 ◦ Robopoint:画像+指示文からVLMで動作(掴む・置く場所)を出力

    ◦ RT-Affordance:ロボットのPoseを事前に推定し、VLMに用いる ◦ TraceVLA:視覚的な軌跡(トレース)を画像上に追加入力として取り込む 言語と制御 • 中間ステップを出力する LLMをロボット制御(サブタスクへの分解・動作生成)に活用 ◦ Chain-of-Thougt:いくつかの「途中式 (step-by-stepの思考過程)」を例示してモデルに与える ◦ Embodied CoT:動作生成前に複数ステップの思考過程を階層的テキストで生成。「掴む物体の 座標はどこか」などを言語で明示 7
  2. Chain-of-Affordance VLMとPick&PlaceにおいてAffordanceを統合 1. Object Affordance:2つの機能を統合 意味的識別:Text Tokenからオブジェクト名解決(お茶を注ぐ→ポット) 空間的グラウンディング:画像中のオブジェクト位置 2. Grasp

    Affordance:物体が操作可能な機能や方法を包括する概念で、物体の 把持点を表す 3. Spatial Affordance:ロボットが3D環境内の空間的関係を解釈・推論する能力 で、物体配置やナビゲーションのための衝突フリー領域の特定などを実現 4. Movement Affordance:タスク遂行中の軌道を定義、障害物などの環境変化 に動的に対応してタスクを完了させる Dynamic Affordance selection:objectとgraspは状況に応じて推論しない アフォーダンスをTextとVisualの組み合わせで中間出力する 9
  3. Visual-Textual Affordance • Textual Affordance:物体の情報、把持位置、空きスペース座標等の情報を自然言語記述子にマッピ ング • Visual Affordance:座標マーカーや運動軌跡を過去の観測フレーム上に重ねて符号化 •

    Visual-Textual Co-injection:各affordanceをトークン化してDiffusionModelの入力とする ◦ Text:VLMモデルの最終埋め込みを用い、 MLP層を追加してトークン化 ◦ Visual:ViTでパッチトークン化 11
  4. 学習データ生成 各シナリオシーンをモデル化 • 物体情報 • 空間データとそれに対応するコンテキスト • グリッパの軌跡をデータ化 データ生成パイプライン 1.

    LLM(GPT-4o)で言語指示からシーンの詳細なコンテキストを作成 2. Grounding DINOv2とSAMでObjectのbounding boxを作成、グリッパ位置もデータ化 3. RoboPointで空間アフォーダンスの作成。 4. 空間アフォーダンスとシーンコンテキストのラベル対応をつけ、外れ値は除去 5. グリッパ位置をCoTrackerで追跡して軌跡データとする 12
  5. 実験 • 実験環境:Franka6自由度アーム、ステレオカメラ (ZED)2台、手首カメラ(D435i)1台 • 学習データ:Droid Dataset(39Kセットの軌跡データ)と CoA用の軌跡データ692セット • アルゴリズム:Diffusion

    VLAをベース • 比較:Diffusion Policy, Octo, OpenVLA, TinyVLA, Diffusion VLA ◦ 全モデルは同一データセットで Fine-Tuning アームとステレオカメラ(赤と青)と手首カメラ 13
  6. 実験タスク7種 1. PlaceCar:車を引き出しにいれ、引き出しを閉める 2. PlaceBread:パンを皿の空きスペースに置く 3. CleanTrash:ゴミをゴミ箱に捨てる。植木鉢の有無 の2シナリオ 4. NailHammer:ハンマーで釘を打つ。

    5. PlaceCup:コップをラックにかける。 6. PourTea:ティーカップをトレイに置き、ティーポット を持ち上げてティーカップにお茶を注ぐ。 7. WipeWater:スポンジを使用し、多数の障害物を 回避しながらテーブルを拭く。 14 Video
  7. まとめ 論文の内容 • CoA-VLAはアフォーダンスによる推論・VisualとText情報を中間出力し、それらを用いて動作 生成を行う ◦ シーンへの汎化性があり、把持・障害物回避などの改善もできる 感想 • step-by-stepで推論・動作生成をした方ががよくなるのはわかる

    • Affordanceと言ってるが事前知識を取り入れているのと変わらない ◦ Affordanceや中間出力に引きずられる可能性がありそう(トレードオフ?) • 学習データが複雑化・多様化するのが懸念点 ◦ BBox、空間データ、コンテキストが必要になっている 18