Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Multimodal LLMs and foundation models in robotics

Multimodal LLMs and foundation models in robotics

第152回ロボット工学セミナー「ロボットのためのLLM・VLM利活用」資料
2024年5月23日(木)

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 本講演での用語用法 5 大規模言語モデル (LLM) 単語列の生成確率を推定するモデル GPT-3/4, LLaMA等 視覚言語モデル 視覚と言語を統合して学習可能なモデル CLIP,

    Otter等 マルチモーダルLLM 複数モダリティ(視覚と言語等)を扱うLLM GPT-4V, LLaVA等 基盤モデル 大規模データで訓練され種々のタスクに応用可能 なモデル BERT, GPT-3/4, CLIP等 同じモデルが複数のカテゴリに入り得る
  2. 基盤モデルのロボティクスへの影響 - - 6 ▪ 基盤モデル:大規模データで訓練され種々のタスクに応用可能* ▪ BERT, GPT-3, CLIP等

    ▪ ロボット構築に基盤モデルを利用 ▪ 未知の状況での頑健性(Zero-shot/few-shot性能) ▪ 言語・画像の非専門家が容易に利用可能 ▪ 例:ロボット対話に関する以前の状況 ▪ 20年前:音声の専門家でも制約多 ▪ 10年前:専門家からの要アドバイス ▪ 現在:誰でも使える *Bommasani et al, “On the Opportunities and Risks of Foundation Models”, 2021.
  3. 言語モデルとは - - 8 ▪ 単語列(トークン列)の生成確率を推定するモデル ▪ 次の単語を予測できる ▪ 例:むかしむかしあるところに…

    ▪ おじいさん:40% ▪ うさぎ:10% ▪ りんご:5% ▪ 例:N-gram ▪ 対象テキスト中の共起頻度を計算する ▪ 音声認識、機械翻訳等で数十年前から使われていた
  4. トランスフォーマー - - 9 トランスフォーマー(transformer)[Vaswani+ 2017] ▪ 機械翻訳用のニューラルネットとして提案 ▪ 自然言語処理タスクの多くで主流

    ▪ BERT, GPT-3/4等 ▪ 数式的な理解は以下を参照ください ▪ https://speakerdeck.com/keio_smilab/keio -univ-intro-to-ml-09-transformer [Vaswani+ 2017]
  5. 大規模言語モデル(Large language models; LLMs) のスキル - - 11 ▪ GPT-4

    [OpenAI, 2023/3/14] ▪ 米国統一司法試験において、 上位10%と同等のスコアを獲 得 ▪ OpenAI CodeX https://www.youtube.com/watch?v=Zm9B-DvwOgw % Among Test takers 90%
  6. ロボット向けのコードを大規模言語モデル(LLM)で生成 - - 13 手法 概要 Code as Policies [Liang+

    22] LLMを用いてatomic actions(認識・動作)を繋げたコードを生成 ChatGPT for Robotics [Vemprala+ 23] LLMの出力を一方的に使うのではなく対話的にコード生成 TidyBot [Wu+ AR-IROS23] CLIPで目標物体をカテゴリ認識し運び先とコードをLLMで生成 多くの手法では状況を 人手で与える必要がある ▪ 例:objects = ["yellow shirt", "black shirt”, ..]
  7. マルチモーダル学習(multimodal learning)の歴史 - - 15 ▪ 複数のモダリティ(modality)を扱 う ▪ 例:画像、音声、テキスト、センサ

    ▪ 古典的機械学習手法では小規模問題し か扱えなかった⇔2015年以降近年成長 が著しい ▪ マルチモーダル言語処理 ▪ 実世界と言語の関係を扱う ▪ 多層的な関係を持つ挑戦的な課題 (省略、意図等) SHRDLU [Winograd 1970s] Microsoft Seeing AI (2017)
  8. マルチモーダル言語処理のサブ分野: 理解と生成 - - 16 マルチモーダル言語理解タスク ▪ Visual Question Answering

    (VQA) ▪ 参照表現理解 ▪ Image-text matching [Wang+ 2017] マルチモーダル言語生成タスク ▪ 画像キャプショニング [Vinyals 2015]、video captioning ▪ Text-to-image ▪ Visual dialog [Das+ 2016][Alayrac+, 2022]
  9. CLIP [Radford+ 2021] - - 17 ▪ 学習: 画像とテキストの組(4億組)の特徴量同士を近付ける ▪

    画像エンコーダ: ViT-B/32, ResNet等 ▪ テキストエンコーダ: トランスフォーマー等 ▪ 推論: 新規の画像(or テキスト)を入力して特徴量に変換 ▪ 多数の応用(DALL·E 2 [Aditya (OpenAI) + 2022/4]等) a photo of a beer bottle satellite imagery of roundabout a photo of a marimba a meme テキスト エンコーダ 画像 エンコーダ
  10. CLIPを物体操作・探索に利用 - - 18 物体操作 CLIPort [Shridhar+ CoRL21], PerAct [Shridhar+

    CoRL22] • Transporter Networks[Zeng+ CoRL20] を拡張してCLIP の言語/画像特徴量を導入 • 「どの位置にグリッパを移動させるか」を予測 KITE [Sundaresan+ CoRL23] 「物体のどの部分を掴むか(キーポイント)」を予測 物体検索 CLIP-Fields [Shafiullah+ RSS23] Detic, BERT, CLIPの組み合わせで物体の探索を行う OpenScene [Peng+ CVPR23] Open-vocabularyの3D Scene understanding
  11. 「CLIPで画像を特徴抽出したい」場合の頻出パターン - - 19 ①1次元の特徴量を利用 ▪ コード1行で書ける ▪ 画像/テキスト特徴量が同型 (512

    x 1) ▪ 位置の情報が失われるので、 「Aの上にBがある」のような情 報表現に不向き Text Text feat. Image feat. Image 新規 画像
  12. 「CLIPで画像を特徴抽出したい」場合の頻出パターン - - 20 ①1次元の特徴量を利用 ▪ コード1行で書ける ▪ 画像/テキスト特徴量が同型 (512

    x 1) ▪ 位置の情報が失われるので、 「Aの上にBがある」のような情 報表現に不向き ②2次元の特徴マップを利用 ▪ CLIPに含まれるResNet/ViTか ら中間層の出力(28 x 28 x 512等)を用いる ▪ 代表的な利用例 ▪ CLIPort [Shridhar+ CoRL21], CRIS [Wang+ CVPR22], SAN [Mengde+ CVPR23] Text Text feat. Image feat. Image 新規 画像 Text Text feat. Image feat. Image 新規 画像
  13. 我々の取り組み例:実世界検索エンジン [Kaneda+ IEEE RAL24] 21 背景 ▪ 生活環境・病院・ショッピングモール・屋外を 言語を通じて利活用できれば便利 ▪

    例:「シンクにあるタオルを取ってきて」 「消火器はどこ?」「座れる場所」 技術ポイント ▪ LLMと基盤モデルにより、文と画像を複数粒度 で分解・統合するトランスフォーマー ▪ 複数CA/ユーザ/モビリティ ▪ クローリングと検索を同時実行可能
  14. マルチモーダルLLM(MLLM)の代表的構成 26 ▪ BLIP-2 [Li+ 2023], LLaVA[Liu+ NeurIPS23]等 ▪ Modality

    Encoder: 画像・音声・ビデオ等から特徴抽出 ▪ Connector: MLPやQ-Former等でテキスト側の表現と整合 https://arxiv.org/abs/2306.13549
  15. マルチモーダルLLMによる行動系列生成 27 PaLM-E [Driess (Google)+ 2023] ▪ 画像と言語を入力とするMLLM を用いたタスク分解と実行 Figure01

    ▪ MLLMによる行動系列・状態推定 ▪ 6億7500万ドルのシリーズB資金を 調達(2024/2) https://www.youtube.com/watch?v=Sq1QZB5baNw https://palm-e.github.io/
  16. ロボット用基盤モデル構築の試み - - 28 Gato [Reed+ JMLR22] ▪ ゲーム、画像キャプション生成、物体操作 等を1つのトランスフォーマーで学習

    RT-1/2/X ▪ RT-1: ロボット13台x17ヶ月の膨大な 学習データ。アーム/台車動作を3Hzで推論 ▪ RT-2[Brohan+ 23]: LLMを複数利用し て「位置と角度の差分」を予測 ▪ RT-X: ICRA24 Best Paper
  17. MLLMによるキャプションを「画像特徴」として扱う 29 ▪ Cap4Video [Wu+ CVPR23 highlight] ▪ 視覚特徴とテキストクエリに加え、 Auxiliary

    Captionとのマッチングも考慮 ▪ λ-representation [齋藤+ JSAI24] ▪ 色や形状などの視覚的な特徴(ViT等) ▪ 自然言語とアラインした特徴(CLIP等) ▪ 自然言語を媒介として構造化された特徴 (マルチモーダルLLM等)
  18. マルチモーダルLLMの代表的ベンチマーク Massive Multi-discipline Multimodal Understanding (MMMU) [Yue+ CVPR24] 31 ▪

    専門知識の理解と推論のベンチマーク ▪ 一言でいうと「学部生の小テストに 近い」 ▪ 教科書や試験等から収集 ▪ 30科目(工学・音楽・政治等) 11500問 ▪ 人間のスコアは76.2から88.6 ▪ https://mmmu-benchmark.github.io/ 2024/05/22時点
  19. MMMUのまとめ ※本日時点の状況であり、今後変わる可能性が大きい 36 ▪ 上位はプロプライエタリなモデルが占めるが、 オープンソースモデルとの性能差は大きくない ▪ 同種モデル間でのパラメータサイズによる影響 のほうが大きい ▪

    例:Gemini UltraとProの差より、Gemini UltraとVILA1.5 (NVIDIA&MIT)の差のほう が小さい ▪ 人文・社会分野の問題では既にsuperhuman ▪ Human expert (worst) : 74.2 vs Gemini Ultra : 78.3 ▪ 主要な誤り: 誤認識、知識不足、推論の誤り
  20. 画像キャプショニングの自動評価 - - 37 ▪ 説明生成モデルの開発には自動評価尺度が必須 ▪ cf. 機械翻訳 ▪

    日々のモデル改良サイクルを被験者評価で行うことは非現実的 ▪ 標準的な評価尺度は人間の評価との相関が低い(0.3-0.55程度)
  21. 画像キャプション生成における教師あり自動評価尺度 [Wada+ CVPR24 (highlight)] 38 ▪ 画像キャプション生成における教師あり自動評価尺度 Polos を提案 ▪

    約13万サンプルの人間による評価 (世界最大の10倍) で構成された Polarisを構築 ▪ ベクトル間の複雑な関係を学習する教師あり自動評価尺度 ▪ ソフトウェア・データセット公開済み→ https://yuiga.dev/polos 6つのベンチマークにおいて世界最高性能 • Flickr8K-Expert • Flickr8K-CF • Composite • PASCAL50S • FOIL • Polaris Apple社との共同研究成果
  22. マルチモーダルLLMの評価を見据えた取り組み 39 Deneb [松田+ JSAI24] ▪ 耐ハルシネーション性能で世界最高性能 ▪ 全指標でPolosを上回る ▪

    類似度を扱うSim-Vec Transformer JaSPICE [Wada+ CoNLL23] ▪ 背景:日本語の自動評価尺度は良いもの がほぼ無い ▪ 述語項構造に基づくシーングラフを用い たグラフマッチング 人通りの少なくなった道路で,青いズボンを着た男の子が オレンジ色のヘルメットを被りスケートボードに乗っている
  23. Superhuman: 人間を凌駕するAI チャンピオンを超えた例 チェス(1997)、Jeopardy!(クイズ, 2011)、囲 碁(2017)、グランツーリスモ(ゲーム, 2022) 平均的な人と同等以上の例 機械翻訳、音声合成、ImageNet(1000カテゴリの物 体認識)

    その先を目指すグランドチャレンジ 「ノーベルチューリングチャレンジ(北野、2016)」 2050年までに、ノーベル賞級かそれ以上の科学的発見 を行う人工知能を開発する [Park+ 2017] https://www.itmedia.co.jp/news/articles/1705/25/news103.html [Park+ 2017]
  24. 移動指示・物体探索指示に関するベンチマーク: シミュレーションと実世界 実世界 ▪ Room2Room [Anderson+ CVPR18], REVERIE[Qi+ CVPR20] ▪

    Honorable Mention Award@REVERIE Challenge 2022 シミュレーション ▪ ALFRED [Shridhar+ CVPR20], HomeRobot, VLMbench [Zheng+ NeurIPS22] ▪ CVPR 2023 DialFRED Challenge優勝[Kaneda+ 23] VLN-BERT 「壁に縞模様がある寝室の横の蛇口 から水が出ていないか確認して」 Matterport3D (90種類の家屋)
  25. 実機を含むベンチマークテスト - - 45 RoboCup@Home(2006-) ▪ 世界最大の生活支援ロボットのベ ンチマークテスト ▪ GPSR:

    RT-2/PaLM SayCanで扱 われているレベルの難易度 ▪ 無理(2010)→ほぼ解決(2023) ▪ 優勝・準優勝(2008-2010,2012) HomeRobot [Yenamandra+ CoRL23] ▪ Open-vocabulary mobile manipulation ▪ NeurIPS23でコンペ
  26. 最新のマルチモーダルLLMでも困難な例 参照表現理解 47 The pillow on the couch closest to

    the plant in the living room. Wall picture closest to the front door in the entryway. 誤ったマスク 対象物体 以外もマスク
  27. Motivation: 介助犬レベルの支援を行うロボットを構築したい https://www.toyota.com/usa/toyota-effect/romy-robot.html 音声(言語)を使った 場合は どんな課題があるの? 候補が少ないならいいけど、 多いならタッチパネルは不便。 音声のほうが便利では? 社会課題

    • 要支援者を物理的・経済的に支える 生産年齢人口の減少 • ポテンシャルユーザのなかで介助犬 (育成に2年300万円)の利用者≒0.5% 家族の世話で仕事 辞めないと… 介助犬を世話 できない
  28. Open-vocabulary物体操作の統合デモ [Kaneda+ IEEE RAL24] [Korekata+ IROS23] [Otsuki+ IROS2023] [Iioka+ IROS2023]

    50 ドライバーの隣にあるサインペン を持ってきて タオルの横にあるリモコンを 持ってきて
  29. 補足:Segment Anything Model (SAM) [Kirillov+(Meta) 2023/4/5] - - 51 Demo

    ▪ https://segment-anything.com/ Video ▪ https://www.youtube.com/shorts/oYUcl_cqKcs
  30. MultiRankIt:物体をマルチモーダル検索して人間に呈示 背景 ▪ 全自動の設定での成功率低 ▪ Closed-vocabulary 設定では 実用性に欠ける 技術ポイント ▪

    自動化とオペレータによる介入を 組み合わせたhuman-in-the-loop設 定 ▪ 文と画像を複数粒度で分解・統合す るMulti-level/modal Transformer CLIP [OpenAI 2021]  成功率 約 30%
  31. 複雑な参照表現に対して適切に検索できた Instruction: “Go to the bathroom with a picture of

    a wagon and bring me the towel directly across from the sink” Rank: 1 Rank: 2 Rank: 3 Rank: 4 Rank: 5 Rank: 6 … Rank: 1 Rank: 2 Rank: 3 Rank: 4 Rank: 5 Rank: 6 … Instruction: “Go to the hallway on level 1 that is lined with wine bottles and pull out the high chair closest to the wine bottles at the second table from the door”
  32. 将来のリスクに対する言語的説明生成:Future captioning [Kambara+ ICIP22][平野+ 23] - - 57 【タスク】 行動前にユーザに実行可否を判断

    を仰ぐための説明生成 【技術ポイント】 ▪ Relational Self-Attention [Kim+ NeurIPS21]を用いたイ ベント間の関係性抽出 ▪ LLMによるあり得る帰結の生成 ▪ Nearest Neighbor Language Model (NNLM)をキャプション 生成に初めて導入 例:「砂時計が落下するリスクがあ ります。動作を実行しますか?」
  33. あり得る未来の説明をLLMで生成し、NNLMを用いて生 成確率をリスコア ▪ LLMによるデータ拡張 ▪ 学習集合における各サンプルをLLMに入力 ▪ 新たなサンプルを含めた学習集合を得る ▪ 説明文の後件部を変更するプロンプトを使用

    ペットボトルを置こうとして、砂糖の 容器に衝突して倒れる ペットボトルを置こうとして、砂糖の 容器に衝突して弾き飛ばされる LLM 入力例 LLM 出力例 58
  34. 今後の展望: マルチモーダルLLMとロボティクス 61 ▪ 「スマホに載る」軽量LLMのリリースが活発化 →マルチモーダルLLMにおいて同様の流れが進むと、ロボットを含む エッジデバイス向けの応用が進むと考えられる ▪ cf. Phi-3

    (Microsoft), OpenELM (Apple)(2024/4), Phi-3- vision 4.15B(2024/05/22) ▪ プロプライエタリなモデル vs オープンソースモデル →性能差が縮むとオープンソースのローカルMLLMが勢いづくはず タスクA の性能 年 プロプライエタリ オープン ソース
  35. まとめ - - 62 1. ロボティクスとLLM 2. マルチモーダル学習 3. ロボティクスとマルチモーダルLLMの評価

    4. 取り組み事例 ※JSPS・JST CREST・JSTムーンショット・NEDO・SCOPE・Apple・トヨタ 自動車・NICT・本田技研・大阪大学・中部大学・本学共同研究者・研究室 の学生・スタッフに感謝申し上げます。