[Journal club] DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following

慶應義塾大学杉浦孔明研究室是方諒介 DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following
Xiaofeng Gao1, Qiaozi Gao2, Ran Gong1, Kaixiang Lin2, Govind Thattai2, Gaurav Sukhatme2,3 (1UCLA, 2Amazon Alexa AI, 3USC Viterbi School of Engineering) IEEE RA-L 2022 慶應義塾大学杉浦孔明研究室是方諒介 Gao, X., Qiaozi, G., Ran, G., Kaixiang, L., Govind, T., Gaurav, S. "DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following." IEEE RA-L 7.4 (2022): 10049-10056.

概要背景 ✓ 人間とロボットによる双方向の自然言語理解提案 ✓ 物体の位置や外見に関する質問応答が可能な questioner-performerフレームワーク ✓ 人間による53kの質問応答アノテーション
結果 ✓ 適切な時期・内容の質問応答により成功率が向上 ✓ ALFREDをタスク・指示文の両面で拡張したDialFREDベンチマークを公開 2

背景：自然言語指示による家事タスク実行 ◼ ALFRED [Shridhar+, CVPR20] ◼ 物体操作を含むVision-and-Language Navigationタスクの標準ベンチマーク ◼ 抽象度の異なる指示文が存在
◼ 課題 ✓ 曖昧な自然言語を環境中における行動へ接地 ✓ 長期的な行動計画および起こり得る失敗からの復帰 3

関連研究：ALFREDは行動系列の多様性が不十分/指示が一方向 ◼ ALFREDの欠点 ✓ タスクに依存する行動系列がほぼ固定 ✓ 一度指示を出した後，情報を追加付与不可（≠双方向） 4 手法概要
HLSM [Blukis+, CoRL21] 3D semantic voxel mapを構築 FILM [Min+, ICLR22] semantic search policyにより対象物体の位置を予測 Prompter [Inoue+, 23] LLMを用いてランドマークを頼りに対象物体の位置を予測 ALFRED HLSM Prompter

提案タスク：DialFRED (Dialogue + ALFRED) ◼ 対話による曖昧性解消 ◼ ロボットがユーザ（人間）に質問 ◼ 応答から得た新情報を利用して行動
◼ ALFREDを拡張したベンチマークを公開 ◼ タスクの種類数：8 → 25 (Appendix) ◼ 環境数：112 ◼ 物体の種類数：80 ◼ 人間がアノテーションした53kの質問応答 ◼ テンプレート文による自動生成も可能 5 ロボットと人間の対話例

タスクの種類を拡張：より細かいサブゴールへ分割後、マージ方針1：元のタスクをよりlow-levelなサブゴールへ分割 ◼ 指示文：テンプレートに基づいて作成 ◼ 例）Clean -> “put the object
in the sink” + “turn on the faucet” + “turn off the faucet” 方針2：分割したサブゴールをマージして新たなタスクを作成 ◼ 指示文：主要なサブゴールのみを説明するように作成 ◼ 例）”go to the fridge” + “open the fridge” -> Move & Open 6 新たなタスク例

Hybrid data collection：人間による質問応答のアノテーション ◼ Amazon Mechanical Turkを用いてクラウドソーシング手順1：タスク実行前の動画視聴（10秒）手順2：テンプレートで生成された質問から合うものを選択 or
自作手順3：模範動作の動画視聴手順4：応答作成 or 質問の要否判断 7 アノテーション画面

◼ 前提：3種類の質問テンプレート 1) Location: “where is [object]?” 2) Appearance: “what
does [object] look like?” 3) Direction: “which direction should I turn to?” ◼ Oracle answer：対応する応答テンプレート 1) Location: “The [object] is to your [direction] in/on the [container].” 2) Appearance: “The [object] is [color] and made of [material].” 3) Direction: “You should turn [direction] / You don’t need to move.” Oracle answer：シーンのメタデータを用いたテンプレート応答自動生成 8 パーサで抽出した指示文中の名詞シミュレータから取得

提案手法：questioner-performerフレームワーク ① Questioner：指示文 + 観測画像 → 質問 ◼ 「いつ」「何を」質問するべきか判断 ②
Performer：指示文 + 観測画像 + 質問 + 応答 + 過去の行動 → 次の行動 ◼ 質問応答を踏まえて次の行動を予測 9

① Questioner：LSTMに基づくencoder, decoder ◼ 人間の対話データセットで事前学習 ◼ 学習ベース：Markov Decision Processを仮定 ◼
強化学習でfine-tuning ◼ ヒューリスティック：Model Confusion (MC) [Chi+, AAAI20] ◼ 行動予測分布のトップ2の差が閾値未満 → 自信なしと判断して質問 10 ：質問トークン（質問の種類・物体）：ResNetから抽出した画像特徴量

② Performer：Episodic Transformer [Pashevich+, ICCV21] ◼ transformerを用いて，画像・言語・行動に関する過去の系列をエンコード ◼ 訓練集合において考えられるすべての質問とoracle answerで事前学習
◼ 予測行動と模範動作との交差エントロピー誤差を最小化 11

実験設定：DialFREDベンチマーク ◼ シミュレータ：AI2-THOR [Kolve+, 17] ◼ 1000ステップ超過または10回以上の行動失敗で終了 ◼ 評価指標 ①
Success Rate (SR) ↑ ◼ （失敗/成功で0/1）を全エピソードで平均した値 ② Path Weighted Success Rate (PWSR) ↑ ◼ を全エピソードで平均した値 ③ Number of Questions (NQ) ↓ ◼ Questionerが質問した回数 12 AI2-THOR ：模範動作に要するステップ数：実際に要したステップ数

定量的結果：適切な質問により成功率が向上 ◼ 6種類の条件 ◼ 2-6：質問応答を用いてperformerを訓練 ◼ 5-6：人間の対話データセットによりquestionerを訓練 ◼ 考察 ✓
1-3：質問応答が成功率向上に寄与 ✓ 4：MCを用いた場合，unseen環境では成功率が低下 ✓ 5-6：タスク実行途中での質問応答により，質問数は増加するものの成功率は向上 13

◼ Perturbed oracle：50%の確率で質問に応答しない ◼ 考察 ✓ RL anytimeと人間の対話データセットは分布が類似（locationに関する質問が最多） ✓ Locationに関するperturbationにより最も成功率が低下
✓ Perturbationによる成功率低下の影響は学習ベースの方が少ない Ablation Study：questionerにより適切に質問割合を調整可能 14 タスク開始時に無作為に質問訓練された questionerがタスク実行中に質問 3種類の質問の割合

まとめ背景 ✓ 人間とロボットによる双方向の自然言語理解提案 ✓ 物体の位置や外見に関する質問応答が可能な questioner-performerフレームワーク ✓ 人間による53kの質問応答アノテーション
結果 ✓ 適切な時期・内容の質問応答により成功率が向上 ✓ ALFREDをタスク・指示文の両面で拡張したDialFREDベンチマークを公開 15

Appendix：25種類のタスク 16

[Journal club] DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following

[Journal club] DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学杉浦孔明研究室是方諒介 DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following

概要背景 ✓ 人間とロボットによる双方向の自然言語理解提案 ✓ 物体の位置や外見に関する質問応答が可能な questioner-performerフレームワーク ✓ 人間による53kの質問応答アノテーション

背景：自然言語指示による家事タスク実行 ◼ ALFRED [Shridhar+, CVPR20] ◼ 物体操作を含むVision-and-Language Navigationタスクの標準ベンチマーク ◼ 抽象度の異なる指示文が存在

関連研究：ALFREDは行動系列の多様性が不十分/指示が一方向 ◼ ALFREDの欠点 ✓ タスクに依存する行動系列がほぼ固定 ✓ 一度指示を出した後，情報を追加付与不可（≠双方向） 4 手法概要

提案タスク：DialFRED (Dialogue + ALFRED) ◼ 対話による曖昧性解消 ◼ ロボットがユーザ（人間）に質問 ◼ 応答から得た新情報を利用して行動

タスクの種類を拡張：より細かいサブゴールへ分割後、マージ方針1：元のタスクをよりlow-levelなサブゴールへ分割 ◼ 指示文：テンプレートに基づいて作成 ◼ 例）Clean -> “put the object

Hybrid data collection：人間による質問応答のアノテーション ◼ Amazon Mechanical Turkを用いてクラウドソーシング手順1：タスク実行前の動画視聴（10秒）手順2：テンプレートで生成された質問から合うものを選択 or

◼ 前提：3種類の質問テンプレート 1) Location: “where is [object]?” 2) Appearance: “what

提案手法：questioner-performerフレームワーク ① Questioner：指示文 + 観測画像 → 質問 ◼ 「いつ」「何を」質問するべきか判断 ②

① Questioner：LSTMに基づくencoder, decoder ◼ 人間の対話データセットで事前学習 ◼ 学習ベース：Markov Decision Processを仮定 ◼

② Performer：Episodic Transformer [Pashevich+, ICCV21] ◼ transformerを用いて，画像・言語・行動に関する過去の系列をエンコード ◼ 訓練集合において考えられるすべての質問とoracle answerで事前学習

実験設定：DialFREDベンチマーク ◼ シミュレータ：AI2-THOR [Kolve+, 17] ◼ 1000ステップ超過または10回以上の行動失敗で終了 ◼ 評価指標 ①

定量的結果：適切な質問により成功率が向上 ◼ 6種類の条件 ◼ 2-6：質問応答を用いてperformerを訓練 ◼ 5-6：人間の対話データセットによりquestionerを訓練 ◼ 考察 ✓

◼ Perturbed oracle：50%の確率で質問に応答しない ◼ 考察 ✓ RL anytimeと人間の対話データセットは分布が類似（locationに関する質問が最多） ✓ Locationに関するperturbationにより最も成功率が低下

まとめ背景 ✓ 人間とロボットによる双方向の自然言語理解提案 ✓ 物体の位置や外見に関する質問応答が可能な questioner-performerフレームワーク ✓ 人間による53kの質問応答アノテーション

Appendix：25種類のタスク 16