Multimodal LLMs and foundation models in robotics

慶應義塾大学理工学部杉浦孔明 1 ロボティクスにおける大規模言語モデル・視覚言語モデルの利活用

2024年の大規模言語モデル・視覚言語モデルの動向 2 • 言語・画像・音声・動画を扱うマルチモーダルLLM（2024/5/13） • Windows上のCopilotへ統合される予定（2024/5/20） https://www.youtube.com/watch?v=DQacCB9tDaw プロンプト「Reflections
in the window of a train traveling through the Tokyo suburbs.」 (2024/2/15) https://openai.com/sora Sora GPT-4o

ロボット×言語のユースケース - - 3 【Honda CIマイクロモビリティ】搭乗型マイクロモビリティ CiKoMaができること https://www.youtube.com/watch?v=82ixVe8cT_8 PaLM-E [Driess
(Robotics at Google)+ 2023] https://palm-e.github.io/

目次 - - 4 1. ロボティクスとLLM 2. マルチモーダル学習 3. ロボティクスとマルチモーダルLLMの評価
4. 取り組み事例

本講演での用語用法 5 大規模言語モデル（LLM）単語列の生成確率を推定するモデル GPT-3/4, LLaMA等視覚言語モデル視覚と言語を統合して学習可能なモデル CLIP,
Otter等マルチモーダルLLM 複数モダリティ（視覚と言語等）を扱うLLM GPT-4V, LLaVA等基盤モデル大規模データで訓練され種々のタスクに応用可能なモデル BERT, GPT-3/4, CLIP等同じモデルが複数のカテゴリに入り得る

基盤モデルのロボティクスへの影響 - - 6 ▪ 基盤モデル：大規模データで訓練され種々のタスクに応用可能* ▪ BERT, GPT-3, CLIP等
▪ ロボット構築に基盤モデルを利用 ▪ 未知の状況での頑健性（Zero-shot/few-shot性能） ▪ 言語・画像の非専門家が容易に利用可能 ▪ 例：ロボット対話に関する以前の状況 ▪ 20年前：音声の専門家でも制約多 ▪ 10年前：専門家からの要アドバイス ▪ 現在：誰でも使える *Bommasani et al, “On the Opportunities and Risks of Foundation Models”, 2021.

ロボティクスとLLM 7

言語モデルとは - - 8 ▪ 単語列（トークン列）の生成確率を推定するモデル ▪ 次の単語を予測できる ▪ 例：むかしむかしあるところに…
▪ おじいさん：40% ▪ うさぎ：10% ▪ りんご：5% ▪ 例：N-gram ▪ 対象テキスト中の共起頻度を計算する ▪ 音声認識、機械翻訳等で数十年前から使われていた

トランスフォーマー - - 9 トランスフォーマー（transformer）[Vaswani+ 2017] ▪ 機械翻訳用のニューラルネットとして提案 ▪ 自然言語処理タスクの多くで主流
▪ BERT, GPT-3/4等 ▪ 数式的な理解は以下を参照ください ▪ https://speakerdeck.com/keio_smilab/keio -univ-intro-to-ml-09-transformer [Vaswani+ 2017]

大規模言語モデルの流れ - - 10 https://arxiv.org/pdf/2303.18223.pdf

大規模言語モデル（Large language models; LLMs）のスキル - - 11 ▪ GPT-4
[OpenAI, 2023/3/14] ▪ 米国統一司法試験において、上位10%と同等のスコアを獲得 ▪ OpenAI CodeX https://www.youtube.com/watch?v=Zm9B-DvwOgw % Among Test takers 90%

言語スコアと動作スコアの後期統合の例： PaLM SayCan [Ahn(Google)+ 2022] - - 12 ▪ 言語スコア（Say）：LLMで生成した動詞＋目的語の生成確率
▪ 動作スコア（Can）：その状況での動作成功確率

ロボット向けのコードを大規模言語モデル（LLM）で生成 - - 13 手法概要 Code as Policies [Liang+
22] LLMを用いてatomic actions（認識・動作）を繋げたコードを生成 ChatGPT for Robotics [Vemprala+ 23] LLMの出力を一方的に使うのではなく対話的にコード生成 TidyBot [Wu+ AR-IROS23] CLIPで目標物体をカテゴリ認識し運び先とコードをLLMで生成 多くの手法では状況を人手で与える必要がある ▪ 例：objects = ["yellow shirt", "black shirt”, ..]

マルチモーダル学習 - - 14

マルチモーダル学習（multimodal learning）の歴史 - - 15 ▪ 複数のモダリティ（modality）を扱う ▪ 例：画像、音声、テキスト、センサ
▪ 古典的機械学習手法では小規模問題しか扱えなかった⇔2015年以降近年成長が著しい ▪ マルチモーダル言語処理 ▪ 実世界と言語の関係を扱う ▪ 多層的な関係を持つ挑戦的な課題（省略、意図等） SHRDLU [Winograd 1970s] Microsoft Seeing AI (2017)

マルチモーダル言語処理のサブ分野：理解と生成 - - 16 マルチモーダル言語理解タスク ▪ Visual Question Answering
(VQA) ▪ 参照表現理解 ▪ Image-text matching [Wang+ 2017] マルチモーダル言語生成タスク ▪ 画像キャプショニング [Vinyals 2015]、video captioning ▪ Text-to-image ▪ Visual dialog [Das+ 2016][Alayrac+, 2022]

CLIP [Radford+ 2021] - - 17 ▪ 学習：画像とテキストの組（４億組）の特徴量同士を近付ける ▪
画像エンコーダ： ViT-B/32, ResNet等 ▪ テキストエンコーダ：トランスフォーマー等 ▪ 推論：新規の画像（or テキスト）を入力して特徴量に変換 ▪ 多数の応用（DALL·E 2 [Aditya (OpenAI) + 2022/4]等） a photo of a beer bottle satellite imagery of roundabout a photo of a marimba a meme テキストエンコーダ画像エンコーダ

CLIPを物体操作・探索に利用 - - 18 物体操作 CLIPort [Shridhar+ CoRL21], PerAct [Shridhar+
CoRL22] • Transporter Networks[Zeng+ CoRL20] を拡張してCLIP の言語/画像特徴量を導入 • 「どの位置にグリッパを移動させるか」を予測 KITE [Sundaresan+ CoRL23] 「物体のどの部分を掴むか（キーポイント）」を予測物体検索 CLIP-Fields [Shafiullah+ RSS23] Detic, BERT, CLIPの組み合わせで物体の探索を行う OpenScene [Peng+ CVPR23] Open-vocabularyの3D Scene understanding

「CLIPで画像を特徴抽出したい」場合の頻出パターン - - 19 ①１次元の特徴量を利用 ▪ コード１行で書ける ▪ 画像/テキスト特徴量が同型（512
x 1） ▪ 位置の情報が失われるので、「Aの上にBがある」のような情報表現に不向き Text Text feat. Image feat. Image 新規画像

「CLIPで画像を特徴抽出したい」場合の頻出パターン - - 20 ①１次元の特徴量を利用 ▪ コード１行で書ける ▪ 画像/テキスト特徴量が同型（512
x 1） ▪ 位置の情報が失われるので、「Aの上にBがある」のような情報表現に不向き ②２次元の特徴マップを利用 ▪ CLIPに含まれるResNet/ViTから中間層の出力（28 x 28 x 512等）を用いる ▪ 代表的な利用例 ▪ CLIPort [Shridhar+ CoRL21], CRIS [Wang+ CVPR22], SAN [Mengde+ CVPR23] Text Text feat. Image feat. Image 新規画像 Text Text feat. Image feat. Image 新規画像

我々の取り組み例：実世界検索エンジン [Kaneda+ IEEE RAL24] 21 背景 ▪ 生活環境・病院・ショッピングモール・屋外を言語を通じて利活用できれば便利 ▪
例：「シンクにあるタオルを取ってきて」「消火器はどこ？」「座れる場所」技術ポイント ▪ LLMと基盤モデルにより、文と画像を複数粒度で分解・統合するトランスフォーマー ▪ 複数CA/ユーザ/モビリティ ▪ クローリングと検索を同時実行可能

未知環境における機能実証（2023/12/15@東京国際フォーラム） 22 消火器はどこ？

未知環境における機能実証（2023/12/15@東京国際フォーラム） 23 座る場所を探してるんだけど

マルチモーダルLLMのロボティクス応用 24

2022年以降、マルチモーダルLLMの開発が活発化 25 https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

マルチモーダルLLM（MLLM）の代表的構成 26 ▪ BLIP-2 [Li+ 2023], LLaVA[Liu+ NeurIPS23]等 ▪ Modality
Encoder：画像・音声・ビデオ等から特徴抽出 ▪ Connector： MLPやQ-Former等でテキスト側の表現と整合 https://arxiv.org/abs/2306.13549

マルチモーダルLLMによる行動系列生成 27 PaLM-E [Driess (Google)+ 2023] ▪ 画像と言語を入力とするMLLM を用いたタスク分解と実行 Figure01
▪ MLLMによる行動系列・状態推定 ▪ 6億7500万ドルのシリーズB資金を調達（2024/2） https://www.youtube.com/watch?v=Sq1QZB5baNw https://palm-e.github.io/

ロボット用基盤モデル構築の試み - - 28 Gato [Reed+ JMLR22] ▪ ゲーム、画像キャプション生成、物体操作等を１つのトランスフォーマーで学習
RT-1/2/X ▪ RT-1：ロボット13台ｘ17ヶ月の膨大な学習データ。アーム/台車動作を3Hzで推論 ▪ RT-2[Brohan+ 23]： LLMを複数利用して「位置と角度の差分」を予測 ▪ RT-X： ICRA24 Best Paper

MLLMによるキャプションを「画像特徴」として扱う 29 ▪ Cap4Video [Wu+ CVPR23 highlight] ▪ 視覚特徴とテキストクエリに加え、 Auxiliary
Captionとのマッチングも考慮 ▪ λ-representation [齋藤+ JSAI24] ▪ 色や形状などの視覚的な特徴（ViT等） ▪ 自然言語とアラインした特徴（CLIP等） ▪ 自然言語を媒介として構造化された特徴（マルチモーダルLLM等）

マルチモーダルLLMの評価 30

マルチモーダルLLMの代表的ベンチマーク Massive Multi-discipline Multimodal Understanding (MMMU) [Yue+ CVPR24] 31 ▪
専門知識の理解と推論のベンチマーク ▪ 一言でいうと「学部生の小テストに近い」 ▪ 教科書や試験等から収集 ▪ 30科目（工学・音楽・政治等） 11500問 ▪ 人間のスコアは76.2から88.6 ▪ https://mmmu-benchmark.github.io/ 2024/05/22時点

例題１：フィードバック制御系の定常偏差 32

例題１に対するGPT-4Vによる予測 33

例題２：バイオリンのチューニングで使用するコード 34

上位の結果 35

MMMUのまとめ ※本日時点の状況であり、今後変わる可能性が大きい 36 ▪ 上位はプロプライエタリなモデルが占めるが、オープンソースモデルとの性能差は大きくない ▪ 同種モデル間でのパラメータサイズによる影響のほうが大きい ▪
例：Gemini UltraとProの差より、Gemini UltraとVILA1.5 (NVIDIA&MIT)の差のほうが小さい ▪ 人文・社会分野の問題では既にsuperhuman ▪ Human expert (worst) : 74.2 vs Gemini Ultra : 78.3 ▪ 主要な誤り：誤認識、知識不足、推論の誤り

画像キャプショニングの自動評価 - - 37 ▪ 説明生成モデルの開発には自動評価尺度が必須 ▪ cf. 機械翻訳 ▪
日々のモデル改良サイクルを被験者評価で行うことは非現実的 ▪ 標準的な評価尺度は人間の評価との相関が低い（0.3-0.55程度）

画像キャプション生成における教師あり自動評価尺度 [Wada+ CVPR24 (highlight)] 38 ▪ 画像キャプション生成における教師あり自動評価尺度 Polos を提案 ▪
約13万サンプルの人間による評価 (世界最大の10倍) で構成された Polarisを構築 ▪ ベクトル間の複雑な関係を学習する教師あり自動評価尺度 ▪ ソフトウェア・データセット公開済み→ https://yuiga.dev/polos ６つのベンチマークにおいて世界最高性能 • Flickr8K-Expert • Flickr8K-CF • Composite • PASCAL50S • FOIL • Polaris Apple社との共同研究成果

マルチモーダルLLMの評価を見据えた取り組み 39 Deneb [松田+ JSAI24] ▪ 耐ハルシネーション性能で世界最高性能 ▪ 全指標でPolosを上回る ▪
類似度を扱うSim-Vec Transformer JaSPICE [Wada+ CoNLL23] ▪ 背景：日本語の自動評価尺度は良いものがほぼ無い ▪ 述語項構造に基づくシーングラフを用いたグラフマッチング人通りの少なくなった道路で，青いズボンを着た男の子がオレンジ色のヘルメットを被りスケートボードに乗っている

深層学習時代のロボティクスの評価 40

Superhuman：人間を凌駕するAI チャンピオンを超えた例チェス（1997）、Jeopardy!（クイズ, 2011）、囲碁（2017）、グランツーリスモ（ゲーム, 2022）平均的な人と同等以上の例機械翻訳、音声合成、ImageNet（1000カテゴリの物体認識）
その先を目指すグランドチャレンジ「ノーベルチューリングチャレンジ（北野、2016）」 2050年までに、ノーベル賞級かそれ以上の科学的発見を行う人工知能を開発する [Park+ 2017] https://www.itmedia.co.jp/news/articles/1705/25/news103.html [Park+ 2017]

何をどこまで達成すればよいのか？ ▪ 「Superhuman」が１つのマイルストーン ▪ 人（平均的な人 or 専門家 or チャンピオン）が同じタスクを解いたときの性能を機械が超える
▪ 達成するとどうなる？ ▪ （私の経験）機械知能の利用に批判的な人が劇的に減る

専門家のスキル向上にAIが利用された例：囲碁 - - 43 ▪ 2017年、AlphaGoが人間のチャンピオンを破る ▪ 2017年以降、「人間を凌駕するAI」を棋士が練習に使用開始 棋士のスコアが急激に向上
[Shin+ PNAS2023] https://deepmind.com/alphago-china

移動指示・物体探索指示に関するベンチマーク：シミュレーションと実世界実世界 ▪ Room2Room [Anderson+ CVPR18], REVERIE[Qi+ CVPR20] ▪
Honorable Mention Award@REVERIE Challenge 2022 シミュレーション ▪ ALFRED [Shridhar+ CVPR20], HomeRobot, VLMbench [Zheng+ NeurIPS22] ▪ CVPR 2023 DialFRED Challenge優勝[Kaneda+ 23] VLN-BERT 「壁に縞模様がある寝室の横の蛇口から水が出ていないか確認して」 Matterport3D （90種類の家屋）

実機を含むベンチマークテスト - - 45 RoboCup@Home（2006-） ▪ 世界最大の生活支援ロボットのベンチマークテスト ▪ GPSR:
RT-2/PaLM SayCanで扱われているレベルの難易度 ▪ 無理(2010)→ほぼ解決(2023) ▪ 優勝・準優勝(2008-2010,2012) HomeRobot [Yenamandra+ CoRL23] ▪ Open-vocabulary mobile manipulation ▪ NeurIPS23でコンペ

我々の取り組み事例①：マルチモーダル言語理解 - - 46

最新のマルチモーダルLLMでも困難な例参照表現理解 47 The pillow on the couch closest to
the plant in the living room. Wall picture closest to the front door in the entryway. 誤ったマスク 対象物体以外もマスク

Motivation：介助犬レベルの支援を行うロボットを構築したい https://www.toyota.com/usa/toyota-effect/romy-robot.html 音声（言語）を使った場合はどんな課題があるの？候補が少ないならいいけど、多いならタッチパネルは不便。音声のほうが便利では？社会課題
• 要支援者を物理的・経済的に支える生産年齢人口の減少 • ポテンシャルユーザのなかで介助犬（育成に2年300万円）の利用者≒0.5% 家族の世話で仕事辞めないと… 介助犬を世話できない

何をどこまでやるのか ▪ 介助犬のタスクは明確に規定されている ▪ HSRが可能なタスクを人手で分析 ▪ タスクの80%以上をカバーし、成功率80%以
上とすれば良い IAADPが定義した介助犬タスクのうちHSRが可能なタスク

Open-vocabulary物体操作の統合デモ [Kaneda+ IEEE RAL24] [Korekata+ IROS23] [Otsuki+ IROS2023] [Iioka+ IROS2023]
50 ドライバーの隣にあるサインペンを持ってきてタオルの横にあるリモコンを持ってきて

補足：Segment Anything Model (SAM) [Kirillov+(Meta) 2023/4/5] - - 51 Demo
▪ https://segment-anything.com/ Video ▪ https://www.youtube.com/shorts/oYUcl_cqKcs

MultiRankIt：物体をマルチモーダル検索して人間に呈示背景 ▪ 全自動の設定での成功率低 ▪ Closed-vocabulary 設定では実用性に欠ける技術ポイント ▪
自動化とオペレータによる介入を組み合わせたhuman-in-the-loop設定 ▪ 文と画像を複数粒度で分解・統合するMulti-level/modal Transformer CLIP [OpenAI 2021]  成功率約 30%

複雑な参照表現に対して適切に検索できた Instruction: “Go to the bathroom with a picture of
a wagon and bring me the towel directly across from the sink” Rank: 1 Rank: 2 Rank: 3 Rank: 4 Rank: 5 Rank: 6 … Rank: 1 Rank: 2 Rank: 3 Rank: 4 Rank: 5 Rank: 6 … Instruction: “Go to the hallway on level 1 that is lined with wine bottles and pull out the high chair closest to the wine bottles at the second table from the door”

モビリティ向け移動指示理解 [Hosomi+ IEEE RAL24] 【タスク】「バイクが止まっている所の横に停めて」等の移動指示言語理解【技術ポイント】 ▪ 夜間画像のセグメンテーション
マスク信頼度を推定 ▪ [Rufus+ IROS21]を超える性能 Mean IoU [Rufus+, IROS2021] 32.71±4.59 TNRSM (提案手法) 37.61±2.73 - 54 -

取り組み事例② 説明生成 - - 55

PonNet：衝突危険性の予測および視覚的説明生成 [Magassouba+ Advanced Robotics 2021] 背景：動作実行前に帰結を予測し(physical reasoning)、ユーザに説明できれば便利技術ポイント：
Attention Branch Network (ABN) [Fukui+ CVPR19]を２系統に拡張し、自己注意で統合平面検出だと精度が低い

将来のリスクに対する言語的説明生成：Future captioning [Kambara+ ICIP22][平野+ 23] - - 57 【タスク】行動前にユーザに実行可否を判断
を仰ぐための説明生成【技術ポイント】 ▪ Relational Self-Attention [Kim+ NeurIPS21]を用いたイベント間の関係性抽出 ▪ LLMによるあり得る帰結の生成 ▪ Nearest Neighbor Language Model (NNLM)をキャプション生成に初めて導入例：「砂時計が落下するリスクがあります。動作を実行しますか？」

あり得る未来の説明をLLMで生成し、NNLMを用いて生成確率をリスコア ▪ LLMによるデータ拡張 ▪ 学習集合における各サンプルをLLMに入力 ▪ 新たなサンプルを含めた学習集合を得る ▪ 説明文の後件部を変更するプロンプトを使用
ペットボトルを置こうとして、砂糖の容器に衝突して倒れるペットボトルを置こうとして、砂糖の容器に衝突して弾き飛ばされる LLM 入力例 LLM 出力例 58

ロボットタスクおよび料理動画に対するfuture captioning 59 アームがつかんでいたルービックキューブをテーブルの上に置き、ルービックキューブとマヨネーズが衝突するアームがルービックキューブを机の上に置こうとしたが、おこうとした場所にペットボトルと接触してしまい、ルービックキューブが棚の上で倒れるアームがルービックキューブを机の上に置こうとしたが、マヨネーズの容器に衝突し、マヨネーズの容器が少し動く

まとめ - - 60

今後の展望：マルチモーダルLLMとロボティクス 61 ▪ 「スマホに載る」軽量LLMのリリースが活発化 →マルチモーダルLLMにおいて同様の流れが進むと、ロボットを含むエッジデバイス向けの応用が進むと考えられる ▪ cf. Phi-3
(Microsoft), OpenELM (Apple)（2024/4）, Phi-3- vision 4.15B（2024/05/22） ▪ プロプライエタリなモデル vs オープンソースモデル →性能差が縮むとオープンソースのローカルMLLMが勢いづくはずタスクA の性能年プロプライエタリオープンソース

まとめ - - 62 1. ロボティクスとLLM 2. マルチモーダル学習 3. ロボティクスとマルチモーダルLLMの評価
4. 取り組み事例 ※JSPS・JST CREST・JSTムーンショット・NEDO・SCOPE・Apple・トヨタ自動車・NICT・本田技研・大阪大学・中部大学・本学共同研究者・研究室の学生・スタッフに感謝申し上げます。

マルチモーダル言語処理の発表資料を公開しています - - 63 公開スライド https://speakerdeck.com/keio_smilab ウェブサイト https://smilab.org Twitter (X)
@keio_smilab

Multimodal LLMs and foundation models in robotics

Multimodal LLMs and foundation models in robotics

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript