Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] TidyBot: Personalized Robot Assistance with Large Language Models

[Journal club] TidyBot: Personalized Robot Assistance with Large Language Models

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室 是方諒介 TidyBot: Personalized Robot Assistance with Large Language

    Models Jimmy Wu1, Rika Antonova2, Adam Kan3, Marion Lepert2, Andy Zeng4, Shuran Song5, Jeannette Bohg2, Szymon Rusinkiewicz1, Thomas Funkhouser1,4 (1Princeton University, 2Stanford University, 3The Nueva School, 4Google, 5Columbia University) IROS 2023 慶應義塾大学 杉浦孔明研究室 是方諒介 Wu, J., Antonova, R., Kan, A., Lepert, M., Zeng, A., Song, S., Bohg, J., Rusinkiewicz, S., Funkhouser, T. "TidyBot: Personalized Robot Assistance with Large Language Models." IROS 2023.
  2. 概要 背景 ✓ パーソナライズされたTidy upタスクにおける収納場所の判断 ✓ 少数のユーザデータからパーソナライズ可能な手法は少ない 提案 ✓ LLMの要約能力を用い,ユーザの嗜好を推定

    ✓ Open-vocab.設定によるアノテーションコスト低減 結果 ✓ 収納場所の嗜好に関するデータセットを構築し,未知物体に対して精度91.2%を達成 ✓ 実環境において,実機統合が可能であることを示した 2 16x
  3. 関連研究:少数のユーザデータからパーソナライズ可能な手法は少ない 4 手法 概要 [Taniguchi+, AR21] ・片付け対象物体の場所を共起確率の分布から推定  一般的な規則を学習するため,ユーザの嗜好に特化しない NeatNet

    [Kapelyukh+, CoRL21] ・GNNを用いてユーザの嗜好を表す潜在ベクトルを抽出  ユーザの傾向に関する大規模なデータ収集が必要 ProgPrompt [Singh+, ICRA23] ・LLMをロボットのタスクプランニングに応用 ・ロボットアームの実機を用いた物体操作タスクにおいて検証 NeatNet [Kapelyukh+, CoRL21] ProgPrompt [Singh+, ICRA23] [Taniguchi+, AR21]
  4. 提案手法:TidyBot ◼ LLMの要約能力を活用し,少数のユーザデータから収納場所を推定可能に ◼ システム全体の手順 1. Open-vocabularyの物体検出器 ViLD [Gu+, ICLR22]

    で発見した最近傍の物体に接近 2. 一人称視点画像から CLIP [Radford+, ICML21] を用いてカテゴリ分類 3. LLM (GPT-3 [Brown+, NeurIPS20]) により収納場所および配置動作を推定 動作実行 5
  5. 実験設定 (1/2):言語のみから成るベンチマークデータセット ◼ タスク:未知物体の収納場所をユーザの嗜好が既知の物体から予測 ◼ 評価指標:Accuracy [%] ◼ 5パターンのユーザ傾向(物体分類則)を複合的に適用 1.

    Category:衣類はAへ,果物類はBへ,… 2. Attribute:プラスチック製ならCへ,金属製ならDへ,… 3. Function:冬服はEへ,夏服はFへ,… 4. Subcategory: シャツはGへ,他の服はHへ,… 5. Multiple:本も玩具も両方Iへ,… 9 シナリオ数 96 部屋の種類 4 物体の種類 1076 収納場所の種類 87 各規則を適用したシナリオの割合
  6. 定量的結果:ベースライン手法を精度で上回る ◼ ベンチマークデータセット ◼ 実機実験:タスク成功率 = 85.0% ◼ 考察 ✓

    「要約」という中間的な出力を挟むことで性能が向上 ✓ 実環境において,物体の位置・カテゴリの推定および把持・配置動作を統合可能 11 全体
  7. 定性的結果:収納・配置規則通りにTidy upタスクを正確に実行 ◼ 規則:カテゴリ (収納場所, 配置動作) ◼ clothing (sofa, place)

    ◼ snack (plastic storage box, toss) ◼ can (recycling bin, toss) ◼ wooden block (drawer, place) ◼ fruit (black storage box, toss) 13 Kinova Gen3
  8. まとめ 背景 ✓ パーソナライズされたTidy upタスクにおける収納場所の判断 ✓ 少数のユーザデータからパーソナライズ可能な手法は少ない 提案 ✓ LLMの要約能力を用い,ユーザの嗜好を推定

    ✓ Open-vocab.設定によるアノテーションコスト低減 結果 ✓ 収納場所の嗜好に関するデータセットを構築し,未知物体に対して精度91.2%を達成 ✓ 実環境において,実機統合が可能であることを示した 14 16x
  9. Appendix:Visual Language Modelに関するAblation Study ◼ モデルおよび分類対象ラベルを変更 ◼ 考察 ✓ 全条件においてCLIPが最良

    ✓ ラベル数が少ないため,要約からカテゴリを抽出する手法が最も精度が高くなる傾向 21