マルチモーダル対話システム

マルチモーダル対話システム品川政太朗（NAIST）

品川政太朗奈良先端科学技術
大学院大学先端科学技術研究科 [経歴] • 2015年東北大学大学院情報科学研究科修士課程修了 • 2015年奈良先端科学技術大学院大学博士後期課程入学 • 2020年奈良先端科学技術大学院大学博士（工学） • 2020年奈良先端科学技術大学院大学助教 [専門] • Vision and Language • 対話的な画像生成システム [書籍] • コンピュータビジョン最前線2021Winter ニュウモン Vision and Language（共立出版） • コンピュータビジョン最前線2023 Summer フカヨミCLIP（共立出版） • Vision Transformer入門 7章8章（技術評論社） S eit aro S h in agaw a 1/51

マルチモーダル対話システムとは対話システム：自然言語で対話して人間を助けるマルチモーダル対話システム：マルチモーダル情報（画像、音声など他の情報源）も入出力として利用して人間を助ける自動運転＋対話創作・製作＋対話 2/51

なぜマルチモーダルなのか？実世界の情報も扱える • 周囲の状況が変化した時に理解できる • より様々な作業をこなせる • 例：デザイン作成、作曲、荷物の運搬、UIの操作今回はWeb上に大規模データがあり研究が進む画像-言語の取り組みを紹介他のモダリティも、既存の何かのモダリティと組になっているデータ資源があれば拡張可能
いちいち説明しなくても 3/51

マルチモーダル対話の（ざっくりとした）類型対話エージェントに身体がないバーチャルアシスタント UIの代理操作や商品の推薦などができる身体があるバーチャルアシスタント＋アバターアバターの表情や身振り手振りによるインタラクションが可能ロボット対話
現実世界での物理的インタラクションが可能イメージ：ゲームのNPC イメージ：アイアンマンのJARVIS イメージ：Pepper、鉄腕アトム今日の話はここの話です 4/51

いま最も有名なマルチモーダル対話システムは？私の指示：画像には何が写っていますか？そうです、GPT-4です。 GPT-4の応答：写真には、実物大の筋肉質なフィギュア（漫画のキャラクターのように見える）が、大きなハンマーを振りかざしているシーンが描かれています。フィギュアは黒い髪で、表情は怒っているようです。フィギュアの手錠のようなものに、実際の人間の男性が繋がれていて、フィギュアから逃
れようと力強い表情で苦闘している様子が見て取れます。男性は眼鏡をかけており、チェック柄のシャツにピンクのT シャツを重ね着しています。背景には店の入口と、その上にある番地「1731」が見えます。変な感じの画像でもほぼ十分な説明をしてくれます ※OpenAI有料プランのChatGPT Plusで利用可能 5/51

GPT-4の画像生成機能は使ってますか？私の指示1：ジンギスカンの画像を生成してください GPT-4の応答： Here is the image of a
traditional Japanese Genghis Khan barbecue scene. 私の指示2： Japaneseじゃないジンギスカンを生成してください GPT-4の応答： Here is the image depicting a traditional Mongolian scene with the dish Genghis Khan. すごい・・・ 6/51

これらは同じ仕組みで動いている？内部では別々の仕組みが動いています。 GPT-4V(ision)：画像付き大規模言語モデルとしての動作 GPT-4+DALL-E3：大規模言語モデルがテキストからの画像生成モデルを操作 7/51

大規模言語モデル（LLM）前後のマルチモーダル対話システム（LLM司令塔型）（マルチモーダル LLM型）特定のタスクに特化したモデルを使うのではなく、LLMを仲介者にする形に GPT-4V(ision) GPT-4+DALL-E3 8/51

大規模言語モデルを活用するマルチモーダル対話システムの基本戦略 a) 学習なし戦略 • 大規模言語モデルに視覚のエンコーダを接続して接続部分だけ微調整 ◦ より各タスクに柔軟に対応可能で高性能 ◦ 比較的低コストで学習可能
△ マルチモーダル対話データが必要 ChatGPTやGPT-4でうまくデータを収集 b) 学習あり戦略 • 大規模言語モデルは司令塔 • 大規模言語モデルは言語を介して他のアプリケーションを道具として使用 ◦ 様々なアプリケーションを利用可能 △ 性能上限はその道具の性能次第 △ プロンプト調整が重要画像生成画像QA 画像の説明画像編集大規模言語モデル男性が大きなみかんを... 9/51

マルチモーダル対話システムの実現方法①：学習なし戦略 10/51

アプリケーションはプログラミング言語で実行可能なものなら何でもOK（人間と同じ）学習なし戦略：大規模言語モデルが言語で他のアプリケーションを操作 Visual ChatGPT: Talking, Drawing and Editing with
Visual Foundation Models [Wu+,2023] 事例紹介：画像についての対話や編集道具：VFMs (Visual Foundation Models) • BLIP: 画像→言語, 画像QA • Stable Diffusion: 言語→画像 • ControlNet: 画像編集ポイント 11/51

対話による画像生成の例（日本語は意訳） Q1: こんにちは、あなたは誰？ A1: Visual ChatGPTです Q2: 絵が好きだが下手なのでリンゴを描いて欲しい A2: リンゴの画像を書きました（画像生成）
Q3: この画像を描いて（リンゴとコップの線画を添付しながら） A3: 受け取りました、どういう操作が希望ですか？ image/dcd3af54.pngの画像を使えます Q4: image/dcd3af54.pngは私のリンゴとコップの線画だね。この線画を改善できる？ A3: 線画から新しい画像を作成して保存しました 12/51

対話による画像生成の例（つづき） Q5: いいね。その画像を水彩画にできる？ A5: Instruct Image Using Textというツールを使用して水彩画にしました（画像を添付） Q6:
わあ、きれい。背景は何色か答えられる？ A6: 青です Q7: 正解。りんごを写真から消して、画像について説明して A7: image/2ca6_remove-something_0849_dcd3af54.png は今コップと青い背景になっています（画像を添付） Q8: 画像にはテーブルの上に影があるね。テーブルを黒のテーブルに置き換えられる？ A8: 黒いテーブルに置換して保存しました（画像を添付） 13/51

Visual ChatGPTの内部機構についてシステム方針: 𝒫 ツール集合: ℱ ユーザクエリ: 𝒬𝑖 対話履歴: ℋ<𝑖
推論履歴: ℛ 𝑖 <𝑗 中間回答: 𝐴 𝑖 𝑗 クエリごと Noが出るまで推論を繰り返すクエリあたりの推論過程の例 14/51

学習なし戦略はプロンプト設計が難しい LLMの理解力が頼り（失敗し続けると無限に生成を繰り返す可能性も・・・）例：VisualChatGPTを動かしてみた結果（LLMにはGPT-4を利用） ※プロンプトは自前で編集済み「英訳してください」という旨のプロンプトが入っていたが失敗明示的にお願いすると生成できた「パンダの画像の色を」と言いながらパンダ以外の領域も黄色に 15/51

性能がイマイチなLLMほどプロンプトに気を遣う必要があるとても長いプロンプトでChatGPTがVision Language Model (VLM)の質問応答器を制御 • ChatGPTは推論/意思決定の役割 • サブ質問に分けてVLMに回答させる(Chain-of-thought)
どのような状況下でどのような対話を行うかはプロンプト次第 • 結局どのような対話が望ましいか人間が与えることが必要 • 設計にも必ずしも従わない。最終的には専用の対話管理モジュールを入れるべき？ • エージェントが自主的に動くということも現状ではあまり望まれていない？ IdealGPT [You+,2023] 16/51

マルチモーダル対話システムの実現方法②：学習あり戦略画像をどのように扱うか？ MLLMに画像を入力するには？ 17/51

画像をどのように扱うか？物体特徴：物体検出器で画像中の限られた空間の特徴量を使う物体特徴抽出器 (Faster R-CNN) グリッド特徴抽出器
(CNN) 領域提案と pooling グリッド特徴抽出器 (CNN) パッチ特徴抽出器 (Transformer) グリッド特徴：画像でよく使われるCNN（畳み込みニューラルネットワーク）の特徴量を使う強み：少学習データでそれなりの性能弱み：物体検出器の性能がボトルネックパッチ特徴：画像をパッチレベルで分割してからトークンとして扱う (Vision Transformerなど) ◦：物体検出で見落とす特徴も捉える △：物体検出タスクで学習しない素のままでは低性能 ◦：言語のTransformerと一体化すると高速（CNNを通さなくて良いため） △：大規模訓練が必要 2014年~ 2018年~ 2020年~ 18/51

画像特徴量を言語と似たように離散トークンとして扱う方法：決定論的サンプリング（VQ-VAE [Oord+,2017]）確率的サンプリング（d-VAE [Ramesh+,2021]） 𝑒1 𝑒2 𝑒3 決定論的サンプリング
𝑧𝑞 𝑥 ~ 𝑞 𝑧|𝑥 = argmin 𝑒 | 𝑧𝑒 𝑥 − 𝑒 | 𝑧𝑒 𝑥 Enc 画像 𝑧𝑞 𝑥 生成画像 Dec 利点：画像でもトークン予測ができる（LLMと相性が良い） 𝑒1 𝑒2 𝑒3 VQ-VAE：学習しながら特徴空間でk-meansを行っているイメージ 19/51

離散トークン使用例：4M: Massively Multimodal Masked Modeling [Mizrahi+, 2023] RGB画像以外の情報源（深度マップや領域マップなど）を統合様々なVision・V&Lタスクが単一モデルで解ける（NeurIPS2023 spotlight）
"Any-to-any"がトレンド図は論文のプロジェクトページより引用: https://4m.epfl.ch/ 20/51

画像のトークン化は必須？必須ではない。たとえば、テキストからの画像生成モデルの DALLE-2 [Ramesh+,2022] は拡散モデルベースの方が良いと報告 priorモデルの比較 • 離散トークンで自己回帰: FID 10.63
• 拡散モデル：FID 10.39 （拡散モデル）図は[Ramesh+,2022] より引用 21/51

MLLMに画像を入力するには？基本的には訓練済みVision Transformer (ViT)（パラメータ固定）を用いる • Linearでつなぐ：LLaVA • MLPでつなぐ：LLaVA-1.5 • 相互注意で画像特徴を選択：QwenVL,
CoCa • Q-formerで画像特徴を選択：BLIP-2, InstructBLIP, Mini-GPT4 • 畳み込みで局所特徴を生かす： Honeybee [Cha+,2023] 両図はHoneybee [Cha+,2023]から引用 ※離散化はしないことが多いが Geminiは離散化しているらしい ※GPT-4Vは不明 (訓練時間) (平均スコア) 畳み込み良さそうだが、訓練データセットなどが異なるので決着はついてない 22/51

少し前まではQ-formerがよく利用されていた MiniGPT-4 [Zhu+, 2023] VideoChat [Li+, 2023] BLIP-2 [LI+,2023] ,
InstructBLIP [Dai+,2023] Q-formerの接続と接続部の学習が鍵 23/51

BERT+ 相互注意層 Q-former:画像を特徴量変換する方法（BLIP-2） Q-formerは画像から言語のソフトプロンプト* をつくる仕組み相互注意全結合層大規模言語モデル(GPT型)
男性が大きなみかんを放り投げている画像特徴抽出 (ViT) *ベクトル形式のプロンプトクエリ画像に紐づけられたクエリベクトルを学習してソフトプロンプトとして利用学習済みBERTを使うのがポイント • クエリはテキストの埋め込みに近づけたい • 画像情報を取り込むテキスト埋め込みにするために相互注意(cross attention)を導入 • 相互注意層は学習済みBERTには無いのでランダムに初期化 • BLIP-2での設定 • BERT-baseを使用 • BLIP-2では768次元の32個のクエリを利用 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 24/51

Q-formerの事前学習（このあと大規模言語モデルとつないで微調整） "男性が...いる" 画像特徴抽出 (ViT) クエリ ⋯ ⋯ マスク付き自己注意
相互注意 2層MLP 1-a) 画像テキストのマッチング (二値分類) 男性がいる ⋯ ⋯ ⋯ 1-b) 文生成 1-c) 対照学習平均 ⋯ ⋯ [CLS] [CLS]トークンとクエリの類似度を計算最大値を類似度スコアとして対照学習 ⋯ 1-b) 文生成 1-c) 対照学習未来の単語をマスクモダリティ間をマスク BERT+対照学習による事前学習 2層MLP ※2層MLPはそれぞれBERTの学習済みモデルのもので初期化 25/51

Q-formerを一度学習してしまえば省労力で学習可能 MiniGPT-4 [Zhu+, 2023] • 選別した3,500画像テキストペアで学習 • バッチサイズ12の訓練ステップ400、A100GPU 7分で学習が完了学習方法（Manual
Instruction Tuning） 1. 指示文(Instruction)を用意 2. 指示文で画像から文章を生成してChatGPT で改善 3. 手動でチェックして所望の形式に微修正 4. このデータセットで学習テンプレートのプロンプト ###Human: <Img><ImageFeature></I mg> <Instruction> ###Assistant: 26/51

最近はLLaVA-1.5の存在感が大きい印象 Visual Instruction Tuning [Liu+,2023a] (NeurIPS2023 oral) Improved Baselines with
Visual Instruction Tuning [Liu+, 2023b] LLaVA-1.5を提案 • 短いQA回答に対応 • VL接続をlinearからMLPへ • モデルを7Bから13Bへ • 画像サイズを336x336へ LLaVAを提案 • GPT-4で生成した画像付きinstruction-followingデータセットを作成 • 学習済みLLM、画像エンコーダを線形層で結合してfine-tuning • A100x8 一日程度で学習できるらしい 27/51

マルチモーダル対話データを楽に収集できないか？ ChatGPT/GPT-4によって擬似的な対話を作成（Self-instruction） LLaVA では GPT-4に左のプロンプトを与えて対話を生成状況設定 • AI visual
assistantになれ • 画像1枚と5文の説明文がある • 画像について質問に答えよ不確実な事項の聞き返しは禁止 • 自信を持って答えられるもののみ回答せよ • 人間に自信を持って回答してもらえなさそうな質問をするな 28/51

作成された対話例（日本語は意訳） Q. 消火栓の色は？ A. 赤です Q. 雪に隠れて見えない？一部見える？ A. 部分的に見えますが大
部分は雪に覆われてます Q. 消火栓の近くの歩道はどう？ A. 最近除雪されたのできれいです 29/51

作成された対話例（日本語は意訳） Q. この都市の冬について画像から分かることは何ですか？ A. とても厳しい 30/51

LLaVA-1.5の性能種々のVLベンチマーク MLLMベンチマークで高性能 Q. LLaVAが苦手にしていた短い回答の質問にどう対応した？ A. プロンプトを追加しただけ "Answer the
question using a single word or phrase." 31/51

LLaVA(に限らず多くのMLLM)の弱点はgroundingの弱さ LLaVA-Grounding [Zhang+,2023] 画像エンコーダがCLIP（後述）のため局所特徴をうまく捉えていない可能性解決策：groundingを明示的に行うような対話データを作ると良い 1. GPT-4（テキストのみ）で所与のbbox付きの名詞（type1）を応答文(type2)に接地させて作成する：150kサンプルのgrounded visual chat
(GVC) データセットを作成 32/51

LLaVA-Grounding [Zhang+,2023] のつづき 2. 応答中の名詞区間は特殊トークンで囲って指示データセットを作る Q: What is the man
doing? A: ⟨gs⟩ The man ⟨ge⟩ ⟨seg⟩ is using ⟨gs⟩ a clothing iron ⟨ge⟩ ⟨seg⟩ on the back of ⟨gs⟩ a yellow taxi ⟨ge⟩ ⟨seg⟩. 画像特徴＋言語＋物体特徴→（MLLM）→名詞区間付き応答生成セグメンテーション基盤モデル(Semantic-SAM)で画像とvisual prompt (click/bbox)から物体特徴トークンを抽出名詞区間＋画像→(OpenSeeD)→bbox, maskを予測 ※OpenSeeD: セグメンテーション基盤モデル 33/51

LLaVA-Groundingのデモを試した結果出力：The image depicts a man in a pink shirt
holding a weighted bar, with his arms straining to support the weight. The man is focused and determined, showing his dedication to his workout. Behind him, another man is standing, providing additional support to the weights. This scene portrays a gym setting where bodybuilders come to train and improve their strength. 入力：describe it. https://llava-vl.github.io/llava-grounding/ 胸あたりの白い点が入力した visual prompt (click) 前方の人は重りを持っていないので微妙に間違えている GPT-4Vと比べると改善の余地がありそう 34/51

CLIP, MLLMの面白い特性：visual prompt 35/51

CLIP (Contrastive Language Image Pre-training) 𝑣1 画像特徴テキスト特徴 𝑡1 𝑡2
𝑡3 𝑠11 𝑠12 𝑠13 ⋯ 𝑡𝑁 ⋯ 𝑠1𝑁 𝑠21 𝑠31 𝑠𝑁1 𝑣2 𝑣3 𝑣𝑁 ⋯ ⋯ 𝑠2𝑁 𝑠3𝑁 𝑠23 𝑠33 𝑠𝑁3 ⋯ 𝑠22 𝑠32 𝑠𝑁2 ⋯ ⋯ ⋯ ⋯ 「犬がボールで遊んでいる」「晴れの日の丘の上の景色」「ひとりの人が壇上で発表をしている」 ⋮ ⋮ 画像テキストの組画像特徴抽出器テキスト特徴抽出器 𝑠𝑁𝑁 ⋯ 図はコンピュータビジョン最前線Summer2022 フカヨミCLIPより引用ほとんどのVLMが画像/テキスト特徴抽出でお世話になっているデファクト的存在 400Mの画像テキスト組でInfoNCE loss（行と列ごとのクラス分類）による対照学習正例の組 ℒ𝑣,𝑡 = −𝔼 log exp 𝑠 𝑣, 𝑡𝑘 Σ exp 𝑠 𝑣, 𝑡𝑘 , ℒ𝑡,𝑣 = −𝔼 log exp 𝑠 𝑡, 𝑣𝑘 Σ exp 𝑠 𝑡, 𝑣𝑘 , ℒ𝑡𝑜𝑡𝑎𝑙 = 1 2 (ℒ𝑣,𝑡 + ℒ𝑡,𝑣 ) ※温度パラメータは省略 [Radford+,2021] 36/51

CLIPの利点：ゼロショット画像認識能力 • "There is a group of orange fish eggs
on the table" • "There is a group of orange foods on the table" • "There is a group of yellow fish eggs on the table" 0.627 0.181 0.192 probability (fish eggsを改悪) 手作りテンプレート: "There is a group of [color] [food] on the table" (色を改悪) CLIP 入力画像画像からのテキスト検索タスクとしてクラスラベルによらない画像認識ができる予測確率の高い文のラベルを予測結果とする上の例は２種類の分類に対応 37/51

CLIPの面白い特徴①：画像中のテキストに認識が引っ張られがち "There is a group of orange fish eggs on
the table" "There is a group of yellow fish eggs on the table" "There is a group of blue fish eggs on the table" 0.005 0.833 0.162 probability Typographic attack: 画像にテキストを入れると認識結果に介入できる青色の「yellow」だと、特に文字「yellow」に引っ張られる 38/51

CLIPが画像中の文字に引っ張られがちなのはどうして？実際にLAIONデータセットの40%はテキストが画像中のテキストに一致している [Maini+,2023] つまり：OCRのような学習をしている • OCRで抽出したテキスト領域をマスクしてから CLIP類似度を計算すると、低い類似度のものは低品質ペアとして除外できる図の引用元
[Maini+,2023] 有力な説：画像内にテキストが写っている画像が多い ※LAION(400M)：公開版CLIPの学習に使われる画像テキストデータセット 39/51

CLIPの面白い特徴②：画像に円を描くと、その囲った場所に注目する [Shtedritski+,2023] Visual prompt engineeringと呼ばれている Sinkhorn-Knoppアルゴリズム（最適輸送で割り当て問題を解く）これもデータセット中のサンプルが影響している？ • YFCC15Mデータセット（CLIPの訓練データの一
部）を使って探索すると確かに事例はある（70 枚/1万枚と少数だが） • フィルタリングされて該当事例が少ないと思われるデータセットでは性能が劣化 • 著者ら「全体から見ると少数でも重要かも」 • 形：◦↑□×だと◦が良い • 色：赤緑紫青黄の◦だと赤◦が良い特に追加で学習することなく、 CLIPは局所に注目する能力がある 40/51

GPT-4Vにもvisual promptを入れると性能が上がる！ Set-of-Mark (SoM) 1. セマンティックセグメンテーション基盤モデルで画像を領域ごとに分割 2. 領域ごとに番号を振る
3. あとは普通にGPT-4Vに入れるだけ [Yang+,2023] 41/51

SoM+GPT-4Vは元のGPT-4Vと比べて位置を正確に捉えられる GPT-4Vは直接物体位置を出力するのが苦手 ※REC：テキストで指定した物体の位置（bounding box）を予測するタスク 42/51

SoM+GPT-4VでCAPTCHAも解ける正解 ※歩行者用信号機は「Pedestrian crosswalk signal」なので不正解 (×) (×) (◦) (◦) ※注意：GPT-4が確率的な推論を行っている場合、正解するか
は運要素があるので、真面目に定量的な性能差を評価するなら複数回試行して統計的な差を見るべきです 43/51

MLLMの評価の難しさ 44/51

どのように評価するか前提：モデル間の性能を公正に比較することは困難になってきている ※マルチモーダルに限らない生成AI、基盤モデル周りの話で理由： • モデルごとに学習データのレシピが異なる • 大規模データで訓練したモデルで「このデータでは学習してない」が証明しにくい ※今の「ゼロショット学習」は厳密にはゼロショットではない •
似たプロンプトでも結果がコロコロ変わるので更にややこしくなる • 実験設計に確率的ゆらぎが含まれているなら統計的な振る舞いも見る必要があるとはいえ、何らかの方法で定量的に比較はしたいのでベンチマークを様々作って評価しているのが現状・・・ 45/51

公正な実験条件でマルチモーダルLLMを比較しようとした研究 [Fu+,2023] 留意点 • 画像は既存のCOCOデータセットから • yes/no回答を強制: “Please answer yes
or no.” • モデル規模は少しまばら(6B~13B) 主要な知見 • 全体的にBLIP-2, InstructBLIPが強い • yes/no回答形式に強いというだけの説がぬぐえない • 画像テキストの翻訳、数字の計算能力が低い • OCR能力が落ちている？(CLIPとは異なる結果) 12のモデルを14のタスクで比較 • Perception（見た目の認識） • Cognition（認知：推論を伴う理解） Perception Cognition これもモデルの評価にバイアスが・・・ 46/51

対話システムとしての課題実用上の挙動の安定性を担保しにくい • いつもプロンプトに従うとは限らない • yes/no回答に従ってくれないモデルも多く、公正な比較が難しい [Fu+,2023] • 実世界に接続されている場合、対話システムのミスが致命的になる可能性があるシステムが自主的に対話を主導して何かをするところはこれから？
• 受動的な対話型システムとしては良いところまできていて、様々な実用ツールが世に出てくると期待される（例：UIの自動操作ツール） • 対話戦略的な部分はまだ人間が対話の仕様書（プロンプト）を作り込む必要がある印象 • コードを書く代わりに自然言語を書くようになっただけでルールベースとあまり変わらない？ • マルチモーダル対話でも、人間や環境とのインタラクションの中で自身のプロンプトを自己改善できるかというのは興味深い話題 47/51

まとめ大規模言語モデル時代のマルチモーダル情報に紐づけられた対話システムへの期待 • デザイン作成、作曲、荷物の運搬、UIの操作など、様々な作業に利用が期待できる • 専用タスクは専用のツールを使い、大規模言語モデルは司令塔の役割 • 学習なし戦略でもそこそこ動くが安定性には欠ける • 学習あり戦略ではより柔軟に対応可能
• GPT-4Vにはまだ及ばないものの、LLaVA-1.5を始めとしてそこそこのモデルが出てきている • Visual promptはMLLMの性能向上に寄与するため標準的に使われる方法になる可能性が高い今後の課題 • プロンプトベースの手法は実用上の挙動の安定性を担保しにくい • ミスがあまり許せないタスクには使いにくい • システムが自主的に対話を主導して何かをするまではできていない • 現状はあくまでMLLMが指示に従えるかに重点を置く研究が多い • 「プロンプトによって指示した通りの自主性」は設計できるはず。作り込み次第で様々なタスクは解ける？ • 公正な性能評価をどう行うべきかという点も大きな課題 48/51

参考文献 [Wu+,2023] Wu, C. et al. Visual ChatGPT: Talking, Drawing
and Editing with Visual Foundation Models. arXiv, 2023. [You+,2023] You, H. et al. IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models. arXiv, 2023. [Oord+,2017] Aaron van den Oord et al. Neural Discrete Representation Learning. NIPS2017. [Ramesh+,2021] Aditya Ramesh, et al. Zero-Shot Text-to-Image generation. arXiv, 2021. [Mizrahi+,2017] Mizrahi, D. et al. 4M: Massively Multimodal Masked Modeling. NeurIPS, 2023. [Ramesh+,2022] Ramesh, A., Dhariwal, P., Nichol, A., Chu, C. & Chen, M. Hierarchical Text-Conditional Image Generation with CLIP Latents. arXiv, 2022. [Cha+,2023] Cha, J., Kang, W., Mun, J. & Roh, B. Honeybee: Locality-enhanced Projector for Multimodal LLM. arXiv, 2023. [LI+,2023] Li, J., Li, D., Savarese, S. & Hoi, S. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. arXiv, 2023. [Dai+,2023] Dai, W. et al. InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning. arXiv, 2023. [Li+,2023] Li, K. et al. VideoChat: Chat-Centric Video Understanding. arXiv, 2023. [Zhu+,2023] Zhu, D., Chen, J., Shen, X., Li, X. & Elhoseiny, M. MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models. arXiv, 2023. [Liu+,2023a] Liu, H., Li, C., Wu, Q. & Lee, Y. J. Visual Instruction Tuning. arXiv, 2023. [Liu+,2023b] Liu, H., Li, C., Li, Y. & Lee, Y. J. Improved Baselines with Visual Instruction Tuning. arXiv, 2023. [Zhang+,2023] Zhang, H. et al. LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models. arXiv, 2023. [Radford+,2021] Alec Radford, et al. Learning transferable visual models from natural language supervision. ICML, Vol. 139, pp. 8748–8763, 2021. [Maini+,2023] Maini, P., Goyal, S., Lipton, Z. C., Zico Kolter, J. & Raghunathan, A. T-MARS: Improving Visual Representations by Circumventing Text Feature Learning. arXiv, 2023. [Shtedritski+,2023] Shtedritski, A., Rupprecht, C. & Vedaldi, A. What does CLIP know about a red circle? Visual prompt engineering for VLMs. ICCV, 2023. 49/51

参考文献 [Yang+,2023] Yang, J. et al. Set-of-Mark Prompting Unleashes Extraordinary
Visual Grounding in GPT-4V. arXiv, 2023. [Fu+,2023] Fu, C. et al. MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models. arXiv, 2023. 50/51

マルチモーダル対話システム

マルチモーダル対話システム

More Decks by Seitaro Shinagawa

Featured

Transcript