Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following

[Journal club] DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室 是方諒介 DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following

    Xiaofeng Gao1, Qiaozi Gao2, Ran Gong1, Kaixiang Lin2, Govind Thattai2, Gaurav Sukhatme2,3 (1UCLA, 2Amazon Alexa AI, 3USC Viterbi School of Engineering) IEEE RA-L 2022 慶應義塾大学 杉浦孔明研究室 是方諒介 Gao, X., Qiaozi, G., Ran, G., Kaixiang, L., Govind, T., Gaurav, S. "DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following." IEEE RA-L 7.4 (2022): 10049-10056.
  2. 概要 背景 ✓ 人間とロボットによる双方向の自然言語理解 提案 ✓ 物体の位置や外見に関する質問応答が可能な questioner-performerフレームワーク ✓ 人間による53kの質問応答アノテーション

    結果 ✓ 適切な時期・内容の質問応答により成功率が向上 ✓ ALFREDをタスク・指示文の両面で拡張したDialFREDベンチマークを公開 2
  3. 背景:自然言語指示による家事タスク実行 ◼ ALFRED [Shridhar+, CVPR20] ◼ 物体操作を含むVision-and-Language Navigationタスクの標準ベンチマーク ◼ 抽象度の異なる指示文が存在

    ◼ 課題 ✓ 曖昧な自然言語を環境中における行動へ接地 ✓ 長期的な行動計画および起こり得る失敗からの復帰 3
  4. 関連研究:ALFREDは行動系列の多様性が不十分/指示が一方向 ◼ ALFREDの欠点 ✓ タスクに依存する行動系列がほぼ固定 ✓ 一度指示を出した後,情報を追加付与不可(≠双方向) 4 手法 概要

    HLSM [Blukis+, CoRL21] 3D semantic voxel mapを構築 FILM [Min+, ICLR22] semantic search policyにより対象物体の位置を予測 Prompter [Inoue+, 23] LLMを用いてランドマークを頼りに対象物体の位置を予測 ALFRED HLSM Prompter
  5. 提案タスク:DialFRED (Dialogue + ALFRED) ◼ 対話による曖昧性解消 ◼ ロボットがユーザ(人間)に質問 ◼ 応答から得た新情報を利用して行動

    ◼ ALFREDを拡張したベンチマークを公開 ◼ タスクの種類数:8 → 25 (Appendix) ◼ 環境数:112 ◼ 物体の種類数:80 ◼ 人間がアノテーションした53kの質問応答 ◼ テンプレート文による自動生成も可能 5 ロボットと人間の対話例
  6. タスクの種類を拡張:より細かいサブゴールへ分割後、マージ 方針1:元のタスクをよりlow-levelなサブゴールへ分割 ◼ 指示文:テンプレートに基づいて作成 ◼ 例)Clean -> “put the object

    in the sink” + “turn on the faucet” + “turn off the faucet” 方針2:分割したサブゴールをマージして新たなタスクを作成 ◼ 指示文:主要なサブゴールのみを説明するように作成 ◼ 例)”go to the fridge” + “open the fridge” -> Move & Open 6 新たなタスク例
  7. ◼ 前提:3種類の質問テンプレート 1) Location: “where is [object]?” 2) Appearance: “what

    does [object] look like?” 3) Direction: “which direction should I turn to?” ◼ Oracle answer:対応する応答テンプレート 1) Location: “The [object] is to your [direction] in/on the [container].” 2) Appearance: “The [object] is [color] and made of [material].” 3) Direction: “You should turn [direction] / You don’t need to move.” Oracle answer:シーンのメタデータを用いたテンプレート応答自動生成 8 パーサで抽出した指示文中の名詞 シミュレータから取得
  8. 提案手法:questioner-performerフレームワーク ① Questioner:指示文 + 観測画像 → 質問 ◼ 「いつ」「何を」質問するべきか判断 ②

    Performer:指示文 + 観測画像 + 質問 + 応答 + 過去の行動 → 次の行動 ◼ 質問応答を踏まえて次の行動を予測 9
  9. ① Questioner:LSTMに基づくencoder, decoder ◼ 人間の対話データセットで事前学習 ◼ 学習ベース:Markov Decision Processを仮定 ◼

    強化学習でfine-tuning ◼ ヒューリスティック:Model Confusion (MC) [Chi+, AAAI20] ◼ 行動予測分布のトップ2の差が閾値 未満 → 自信なしと判断して質問 10 :質問トークン(質問の種類・物体) :ResNetから抽出した画像特徴量
  10. 実験設定:DialFREDベンチマーク ◼ シミュレータ:AI2-THOR [Kolve+, 17] ◼ 1000ステップ超過または10回以上の行動失敗で終了 ◼ 評価指標 ①

    Success Rate (SR) ↑ ◼ (失敗/成功で0/1)を全エピソードで平均した値 ② Path Weighted Success Rate (PWSR) ↑ ◼ を全エピソードで平均した値 ③ Number of Questions (NQ) ↓ ◼ Questionerが質問した回数 12 AI2-THOR :模範動作に要するステップ数 :実際に要したステップ数
  11. 定量的結果:適切な質問により成功率が向上 ◼ 6種類の条件 ◼ 2-6:質問応答を用いてperformerを訓練 ◼ 5-6:人間の対話データセットによりquestionerを訓練 ◼ 考察 ✓

    1-3:質問応答が成功率向上に寄与 ✓ 4:MCを用いた場合,unseen環境では成功率が低下 ✓ 5-6:タスク実行途中での質問応答により,質問数は増加するものの成功率は向上 13
  12. ◼ Perturbed oracle:50%の確率で質問に応答しない ◼ 考察 ✓ RL anytimeと人間の対話データセットは分布が類似(locationに関する質問が最多) ✓ Locationに関するperturbationにより最も成功率が低下

    ✓ Perturbationによる成功率低下の影響は学習ベースの方が少ない Ablation Study:questionerにより適切に質問割合を調整可能 14 タスク開始時に 無作為に質問 訓練された questionerが タスク実行中に質問 3種類の質問の割合
  13. まとめ 背景 ✓ 人間とロボットによる双方向の自然言語理解 提案 ✓ 物体の位置や外見に関する質問応答が可能な questioner-performerフレームワーク ✓ 人間による53kの質問応答アノテーション

    結果 ✓ 適切な時期・内容の質問応答により成功率が向上 ✓ ALFREDをタスク・指示文の両面で拡張したDialFREDベンチマークを公開 15