Upgrade to Pro — share decks privately, control downloads, hide ads and more …

マルチモーダル対話システム

Seitaro Shinagawa
June 06, 2024
590

 マルチモーダル対話システム

Seitaro Shinagawa

June 06, 2024
Tweet

More Decks by Seitaro Shinagawa

Transcript

  1. 品川 政太朗 奈 良 先 端 科 学 技 術

    大 学 院 大 学 先 端 科 学 技 術 研 究 科 [経歴] • 2015年 東北大学大学院情報科学研究科 修士課程修了 • 2015年 奈良先端科学技術大学院大学 博士後期課程入学 • 2020年 奈良先端科学技術大学院大学 博士(工学) • 2020年 奈良先端科学技術大学院大学 助教 [専門] • Vision and Language • 対話的な画像生成システム [書籍] • コンピュータビジョン最前線2021Winter ニュウモン Vision and Language(共立出版) • コンピュータビジョン最前線2023 Summer フカヨミCLIP(共立出版) • Vision Transformer入門 7章8章(技術評論社) S eit aro S h in agaw a 1/51
  2. いま最も有名なマルチモーダル対話システムは? 私の指示: 画像には何が写っていますか? そうです、GPT-4です。 GPT-4の応答: 写真には、実物大の筋肉質なフィギュア(漫画のキャラク ターのように見える)が、大きなハンマーを振りかざして いるシーンが描かれています。フィギュアは黒い髪で、表 情は怒っているようです。フィギュアの手錠のようなもの に、実際の人間の男性が繋がれていて、フィギュアから逃

    れようと力強い表情で苦闘している様子が見て取れます。 男性は眼鏡をかけており、チェック柄のシャツにピンクのT シャツを重ね着しています。背景には店の入口と、その上 にある番地「1731」が見えます。 変な感じの画像でもほぼ十分な説明をしてくれます ※OpenAI有料プランのChatGPT Plusで利用可能 5/51
  3. GPT-4の画像生成機能は使ってますか? 私の指示1: ジンギスカンの画像を生成してください GPT-4の応答: Here is the image of a

    traditional Japanese Genghis Khan barbecue scene. 私の指示2: Japaneseじゃないジンギスカンを生成してください GPT-4の応答: Here is the image depicting a traditional Mongolian scene with the dish Genghis Khan. すごい・・・ 6/51
  4. 大規模言語モデルを活用するマルチモーダル対話システムの基本戦略 a) 学習なし戦略 • 大規模言語モデルに視覚のエンコーダを 接続して接続部分だけ微調整 ◦ より各タスクに柔軟に対応可能で高性能 ◦ 比較的低コストで学習可能

    △ マルチモーダル対話データが必要 ChatGPTやGPT-4でうまくデータを収集 b) 学習あり戦略 • 大規模言語モデルは司令塔 • 大規模言語モデルは言語を介して他のアプ リケーションを道具として使用 ◦ 様々なアプリケーションを利用可能 △ 性能上限はその道具の性能次第 △ プロンプト調整が重要 画像生成 画像QA 画像の説明 画像編集 大規模言語モデル 男性が大きなみかんを... 9/51
  5. アプリケーションはプログラミング言語で実行 可能なものなら何でもOK(人間と同じ) 学習なし戦略:大規模言語モデルが言語で他のアプリケーションを操作 Visual ChatGPT: Talking, Drawing and Editing with

    Visual Foundation Models [Wu+,2023] 事例紹介:画像についての対話や編集 道具:VFMs (Visual Foundation Models) • BLIP: 画像→言語, 画像QA • Stable Diffusion: 言語→画像 • ControlNet: 画像編集 ポイント 11/51
  6. 対話による画像生成の例(日本語は意訳) Q1: こんにちは、あなたは誰? A1: Visual ChatGPTです Q2: 絵が好きだが下手なのでリンゴを描いて欲しい A2: リンゴの画像を書きました(画像生成)

    Q3: この画像を描いて(リンゴとコップの線画を添付しながら) A3: 受け取りました、どういう操作が希望ですか? image/dcd3af54.pngの画像を使えます Q4: image/dcd3af54.pngは私のリンゴとコップの線画だね。 この線画を改善できる? A3: 線画から新しい画像を作成して保存しました 12/51
  7. 対話による画像生成の例(つづき) Q5: いいね。その画像を水彩画にできる? A5: Instruct Image Using Textというツールを使用して水彩画 にしました(画像を添付) Q6:

    わあ、きれい。背景は何色か答えられる? A6: 青です Q7: 正解。りんごを写真から消して、画像について説明して A7: image/2ca6_remove-something_0849_dcd3af54.png は今コップと青い背景になっています(画像を添付) Q8: 画像にはテーブルの上に影があるね。テーブルを黒のテーブ ルに置き換えられる? A8: 黒いテーブルに置換して保存しました(画像を添付) 13/51
  8. Visual ChatGPTの内部機構について システム方針: 𝒫 ツール集合: ℱ ユーザクエリ: 𝒬𝑖 対話履歴: ℋ<𝑖

    推論履歴: ℛ 𝑖 <𝑗 中間回答: 𝐴 𝑖 𝑗 クエリごと Noが出る まで推論を 繰り返す クエリあたりの推論過程の例 14/51
  9. 性能がイマイチなLLMほどプロンプトに気を遣う必要がある とても長いプロンプトでChatGPTがVision Language Model (VLM)の質問応答器を制御 • ChatGPTは推論/意思決定の役割 • サブ質問に分けてVLMに回答さ せる(Chain-of-thought)

    どのような状況下でどのような 対話を行うかはプロンプト次第 • 結局どのような対話が望ましいか 人間が与えることが必要 • 設計にも必ずしも従わない。最終 的には専用の対話管理モジュール を入れるべき? • エージェントが自主的に動くとい うことも現状ではあまり望まれて いない? IdealGPT [You+,2023] 16/51
  10. 画像をどのように扱うか? 物体特徴: 物体検出器で画像中の限られた空間 の特徴量を使う 物体特徴 抽出器 (Faster R-CNN) グリッド特徴 抽出器

    (CNN) 領域提案と pooling グリッド特徴 抽出器 (CNN) パッチ特徴 抽出器 (Transformer) グリッド特徴: 画像でよく使われるCNN(畳 み込みニューラルネットワー ク)の特徴量を使う 強み:少学習データでそれなりの性能 弱み:物体検出器の性能がボトルネック パッチ特徴: 画像をパッチレベルで分割し てからトークンとして扱う (Vision Transformerなど) ◦:物体検出で見落とす特徴も捉える △:物体検出タスクで学習しない素の ままでは低性能 ◦:言語のTransformerと一体 化すると高速(CNNを通さな くて良いため) △:大規模訓練が必要 2014年~ 2018年~ 2020年~ 18/51
  11. 画像特徴量を言語と似たように離散トークンとして扱う 方法:決定論的サンプリング(VQ-VAE [Oord+,2017]) 確率的サンプリング (d-VAE [Ramesh+,2021]) 𝑒1 𝑒2 𝑒3 決定論的サンプリング

    𝑧𝑞 𝑥 ~ 𝑞 𝑧|𝑥 = argmin 𝑒 | 𝑧𝑒 𝑥 − 𝑒 | 𝑧𝑒 𝑥 Enc 画像 𝑧𝑞 𝑥 生成 画像 Dec 利点:画像でもトークン予測ができる(LLMと相性が良い) 𝑒1 𝑒2 𝑒3 VQ-VAE:学習しながら特徴空間でk-meansを行っているイメージ 19/51
  12. MLLMに画像を入力するには? 基本的には訓練済みVision Transformer (ViT)(パラメータ固定)を用いる • Linearでつなぐ:LLaVA • MLPでつなぐ:LLaVA-1.5 • 相互注意で画像特徴を選択:QwenVL,

    CoCa • Q-formerで画像特徴を選択:BLIP-2, InstructBLIP, Mini-GPT4 • 畳み込みで局所特徴を生かす: Honeybee [Cha+,2023] 両図はHoneybee [Cha+,2023]から引用 ※離散化はしないことが多いが Geminiは離散化しているらしい ※GPT-4Vは不明 (訓練時間) (平均スコア) 畳み込み良さそうだが、訓練データセットなどが 異なるので決着はついてない 22/51
  13. BERT+ 相互注意層 Q-former:画像を特徴量変換する方法(BLIP-2) Q-formerは 画像から言語の ソフトプロンプト* をつくる仕組み 相互注意 全結合層 大規模言語モデル(GPT型)

    男性が大きなみかんを放り投げている 画像 特徴 抽出 (ViT) *ベクトル形式のプロンプト クエリ 画像に紐づけられたクエリベクトルを 学習してソフトプロンプトとして利用 学習済みBERTを使うのがポイント • クエリはテキストの埋め込みに近づけたい • 画像情報を取り込むテキスト埋め込みにす るために相互注意(cross attention)を導入 • 相互注意層は学習済みBERTには無いのでラ ンダムに初期化 • BLIP-2での設定 • BERT-baseを使用 • BLIP-2では768次元の32個のクエリを利用 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 24/51
  14. Q-formerの事前学習(このあと大規模言語モデルとつないで微調整) "男性が...いる" 画像 特徴 抽出 (ViT) クエリ ⋯ ⋯ マスク付き自己注意

    相互注意 2層MLP 1-a) 画像テキストの マッチング (二値分類) 男性 が いる ⋯ ⋯ ⋯ 1-b) 文生成 1-c) 対照学習 平均 ⋯ ⋯ [CLS] [CLS]トークンとクエリの類似度を計算 最大値を類似度スコアとして対照学習 ⋯ 1-b) 文生成 1-c) 対照学習 未来の単語 をマスク モダリティ間 をマスク BERT+対照学習 による事前学習 2層MLP ※2層MLPはそれぞれBERTの学 習済みモデルのもので初期化 25/51
  15. Q-formerを一度学習してしまえば省労力で学習可能 MiniGPT-4 [Zhu+, 2023] • 選別した3,500画像テキストペアで学習 • バッチサイズ12の訓練ステップ400、A100GPU 7分で学習が完了 学習方法(Manual

    Instruction Tuning) 1. 指示文(Instruction)を用意 2. 指示文で画像から文章を生成してChatGPT で改善 3. 手動でチェックして所望の形式に微修正 4. このデータセットで学習 テンプレートのプロンプト ###Human: <Img><ImageFeature></I mg> <Instruction> ###Assistant: 26/51
  16. 最近はLLaVA-1.5の存在感が大きい印象 Visual Instruction Tuning [Liu+,2023a] (NeurIPS2023 oral) Improved Baselines with

    Visual Instruction Tuning [Liu+, 2023b] LLaVA-1.5を提案 • 短いQA回答に対応 • VL接続をlinearからMLPへ • モデルを7Bから13Bへ • 画像サイズを336x336へ LLaVAを提案 • GPT-4で生成した画像付きinstruction-followingデータセットを作成 • 学習済みLLM、画像エンコーダを線形層で結合してfine-tuning • A100x8 一日程度で学習できるらしい 27/51
  17. マルチモーダル対話データを楽に収集できないか? ChatGPT/GPT-4によって擬似的な対話を作成(Self-instruction) LLaVA では GPT-4に左のプロンプトを与え て対話を生成 状況設定 • AI visual

    assistantになれ • 画像1枚と5文の説明文がある • 画像について質問に答えよ 不確実な事項の聞き返しは禁止 • 自信を持って答えられるものの み回答せよ • 人間に自信を持って回答しても らえなさそうな質問をするな 28/51
  18. 作成された対話例(日本語は意訳) Q. 消火栓の色は? A. 赤です Q. 雪に隠れて見えな い?一部見える? A. 部分的に見えますが大

    部分は雪に覆われてます Q. 消火栓の近くの歩道はどう? A. 最近除雪されたのできれいです 29/51
  19. LLaVA-Grounding [Zhang+,2023] のつづき 2. 応答中の名詞区間は特殊トークンで囲って指示データセットを作る Q: What is the man

    doing? A: ⟨gs⟩ The man ⟨ge⟩ ⟨seg⟩ is using ⟨gs⟩ a clothing iron ⟨ge⟩ ⟨seg⟩ on the back of ⟨gs⟩ a yellow taxi ⟨ge⟩ ⟨seg⟩. 画像特徴+言語+物体特徴→(MLLM)→名詞区間付き応答生成 セグメンテーション基盤モデル(Semantic-SAM)で 画像とvisual prompt (click/bbox)から物体特徴トークンを抽出 名詞区間+画像→(OpenSeeD)→bbox, maskを予測 ※OpenSeeD: セグメンテーション基盤モデル 33/51
  20. LLaVA-Groundingのデモを試した結果 出力:The image depicts a man in a pink shirt

    holding a weighted bar, with his arms straining to support the weight. The man is focused and determined, showing his dedication to his workout. Behind him, another man is standing, providing additional support to the weights. This scene portrays a gym setting where bodybuilders come to train and improve their strength. 入力:describe it. https://llava-vl.github.io/llava-grounding/ 胸あたりの白い点が入力した visual prompt (click) 前方の人は重りを持っていないので微妙 に間違えている GPT-4Vと比べると改善の余地がありそう 34/51
  21. CLIP (Contrastive Language Image Pre-training) 𝑣1 画像特徴 テキスト特徴 𝑡1 𝑡2

    𝑡3 𝑠11 𝑠12 𝑠13 ⋯ 𝑡𝑁 ⋯ 𝑠1𝑁 𝑠21 𝑠31 𝑠𝑁1 𝑣2 𝑣3 𝑣𝑁 ⋯ ⋯ 𝑠2𝑁 𝑠3𝑁 𝑠23 𝑠33 𝑠𝑁3 ⋯ 𝑠22 𝑠32 𝑠𝑁2 ⋯ ⋯ ⋯ ⋯ 「犬がボールで遊んでいる」 「晴れの日の丘の上の景色」 「ひとりの人が壇上で発表 をしている」 ⋮ ⋮ 画像テキストの組 画像 特徴抽出器 テキスト 特徴抽出器 𝑠𝑁𝑁 ⋯ 図はコンピュータビジョン最前線Summer2022 フカヨミCLIPより引用 ほとんどのVLMが画像/テキスト特徴抽出でお世話になっているデファクト的存在 400Mの画像テキスト組でInfoNCE loss(行と列ごとのクラス分類)による対照学習 正例の組 ℒ𝑣,𝑡 = −𝔼 log exp 𝑠 𝑣, 𝑡𝑘 Σ exp 𝑠 𝑣, 𝑡𝑘 , ℒ𝑡,𝑣 = −𝔼 log exp 𝑠 𝑡, 𝑣𝑘 Σ exp 𝑠 𝑡, 𝑣𝑘 , ℒ𝑡𝑜𝑡𝑎𝑙 = 1 2 (ℒ𝑣,𝑡 + ℒ𝑡,𝑣 ) ※温度パラメータは省略 [Radford+,2021] 36/51
  22. CLIPの利点:ゼロショット画像認識能力 • "There is a group of orange fish eggs

    on the table" • "There is a group of orange foods on the table" • "There is a group of yellow fish eggs on the table" 0.627 0.181 0.192 probability (fish eggsを改悪) 手作りテンプレート: "There is a group of [color] [food] on the table" (色を改悪) CLIP 入力画像 画像からのテキスト検索タスクとしてクラスラベルによらない画像認識ができる 予測確率の高い文のラベルを予 測結果とする 上の例は2種類の分類に対応 37/51
  23. CLIPの面白い特徴①:画像中のテキストに認識が引っ張られがち "There is a group of orange fish eggs on

    the table" "There is a group of yellow fish eggs on the table" "There is a group of blue fish eggs on the table" 0.005 0.833 0.162 probability Typographic attack: 画像にテキストを入れると認識結果に介入できる 青色の「yellow」だと、特に文字「yellow」に引っ張られる 38/51
  24. CLIPの面白い特徴②:画像に円を描くと、その囲った場所に注目する [Shtedritski+,2023] Visual prompt engineeringと呼ばれている Sinkhorn-Knoppアルゴリズム (最適輸送で割り当て問題を解く) これもデータセット中のサンプルが影響している? • YFCC15Mデータセット(CLIPの訓練データの一

    部)を使って探索すると確かに事例はある(70 枚/1万枚と少数だが) • フィルタリングされて該当事例が少ないと思わ れるデータセットでは性能が劣化 • 著者ら「全体から見ると少数でも重要かも」 • 形:◦↑□×だと◦が良い • 色:赤緑紫青黄の◦だと 赤◦が良い 特に追加で学習することなく、 CLIPは局所に注目する能力がある 40/51
  25. SoM+GPT-4VでCAPTCHAも解ける 正解 ※歩行者用信号機は「Pedestrian crosswalk signal」なので不正解 (×) (×) (◦) (◦) ※注意:GPT-4が確率的な推論を行っている場合、正解するか

    は運要素があるので、真面目に定量的な性能差を評価するなら 複数回試行して統計的な差を見るべきです 43/51
  26. どのように評価するか 前提:モデル間の性能を公正に比較することは困難になってきている ※マルチモーダルに限らない生成AI、基盤モデル周りの話で 理由: • モデルごとに学習データのレシピが異なる • 大規模データで訓練したモデルで「このデータでは学習してない」が証明しにくい ※今の「ゼロショット学習」は厳密にはゼロショットではない •

    似たプロンプトでも結果がコロコロ変わるので更にややこしくなる • 実験設計に確率的ゆらぎが含まれているなら統計的な振る舞いも見る必要がある とはいえ、何らかの方法で定量的に比較はしたいのでベンチマークを様々作って評価 しているのが現状・・・ 45/51
  27. 公正な実験条件でマルチモーダルLLMを比較しようとした研究 [Fu+,2023] 留意点 • 画像は既存のCOCOデータセットから • yes/no回答を強制: “Please answer yes

    or no.” • モデル規模は少しまばら(6B~13B) 主要な知見 • 全体的にBLIP-2, InstructBLIPが強い • yes/no回答形式に強いというだけの説がぬぐえない • 画像テキストの翻訳、数字の計算能力が低い • OCR能力が落ちている?(CLIPとは異なる結果) 12のモデルを14のタスクで比較 • Perception(見た目の認識) • Cognition(認知:推論を伴う理解) Perception Cognition これもモデルの評価に バイアスが・・・ 46/51
  28. 対話システムとしての課題 実用上の挙動の安定性を担保しにくい • いつもプロンプトに従うとは限らない • yes/no回答に従ってくれないモデルも多く、公正な比較が難しい [Fu+,2023] • 実世界に接続されている場合、対話システムのミスが致命的になる可能性がある システムが自主的に対話を主導して何かをするところはこれから?

    • 受動的な対話型システムとしては良いところまできていて、様々な実用ツールが世に出てくると 期待される(例:UIの自動操作ツール) • 対話戦略的な部分はまだ人間が対話の仕様書(プロンプト)を作り込む必要がある印象 • コードを書く代わりに自然言語を書くようになっただけでルールベースとあまり変わらない? • マルチモーダル対話でも、人間や環境とのインタラクションの中で自身のプロンプトを自己改 善できるかというのは興味深い話題 47/51
  29. まとめ 大規模言語モデル時代のマルチモーダル情報に紐づけられた対話システムへの期待 • デザイン作成、作曲、荷物の運搬、UIの操作など、様々な作業に利用が期待できる • 専用タスクは専用のツールを使い、大規模言語モデルは司令塔の役割 • 学習なし戦略でもそこそこ動くが安定性には欠ける • 学習あり戦略ではより柔軟に対応可能

    • GPT-4Vにはまだ及ばないものの、LLaVA-1.5を始めとしてそこそこのモデルが出てきている • Visual promptはMLLMの性能向上に寄与するため標準的に使われる方法になる可能性が高い 今後の課題 • プロンプトベースの手法は実用上の挙動の安定性を担保しにくい • ミスがあまり許せないタスクには使いにくい • システムが自主的に対話を主導して何かをするまではできていない • 現状はあくまでMLLMが指示に従えるかに重点を置く研究が多い • 「プロンプトによって指示した通りの自主性」は設計できるはず。作り込み次第で様々なタス クは解ける? • 公正な性能評価をどう行うべきかという点も大きな課題 48/51
  30. 参考文献 [Wu+,2023] Wu, C. et al. Visual ChatGPT: Talking, Drawing

    and Editing with Visual Foundation Models. arXiv, 2023. [You+,2023] You, H. et al. IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models. arXiv, 2023. [Oord+,2017] Aaron van den Oord et al. Neural Discrete Representation Learning. NIPS2017. [Ramesh+,2021] Aditya Ramesh, et al. Zero-Shot Text-to-Image generation. arXiv, 2021. [Mizrahi+,2017] Mizrahi, D. et al. 4M: Massively Multimodal Masked Modeling. NeurIPS, 2023. [Ramesh+,2022] Ramesh, A., Dhariwal, P., Nichol, A., Chu, C. & Chen, M. Hierarchical Text-Conditional Image Generation with CLIP Latents. arXiv, 2022. [Cha+,2023] Cha, J., Kang, W., Mun, J. & Roh, B. Honeybee: Locality-enhanced Projector for Multimodal LLM. arXiv, 2023. [LI+,2023] Li, J., Li, D., Savarese, S. & Hoi, S. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. arXiv, 2023. [Dai+,2023] Dai, W. et al. InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning. arXiv, 2023. [Li+,2023] Li, K. et al. VideoChat: Chat-Centric Video Understanding. arXiv, 2023. [Zhu+,2023] Zhu, D., Chen, J., Shen, X., Li, X. & Elhoseiny, M. MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models. arXiv, 2023. [Liu+,2023a] Liu, H., Li, C., Wu, Q. & Lee, Y. J. Visual Instruction Tuning. arXiv, 2023. [Liu+,2023b] Liu, H., Li, C., Li, Y. & Lee, Y. J. Improved Baselines with Visual Instruction Tuning. arXiv, 2023. [Zhang+,2023] Zhang, H. et al. LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models. arXiv, 2023. [Radford+,2021] Alec Radford, et al. Learning transferable visual models from natural language supervision. ICML, Vol. 139, pp. 8748–8763, 2021. [Maini+,2023] Maini, P., Goyal, S., Lipton, Z. C., Zico Kolter, J. & Raghunathan, A. T-MARS: Improving Visual Representations by Circumventing Text Feature Learning. arXiv, 2023. [Shtedritski+,2023] Shtedritski, A., Rupprecht, C. & Vedaldi, A. What does CLIP know about a red circle? Visual prompt engineering for VLMs. ICCV, 2023. 49/51
  31. 参考文献 [Yang+,2023] Yang, J. et al. Set-of-Mark Prompting Unleashes Extraordinary

    Visual Grounding in GPT-4V. arXiv, 2023. [Fu+,2023] Fu, C. et al. MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models. arXiv, 2023. 50/51