自然言語とVision&Language

知能情報論自然言語とVision & Language 上原康平（東京大学原田・長・黒瀬・椋田研究室助教） last update:
2024/6/6

• Vision（画像）とLanguage（言語）の両方のモダリティを対象とする研究分野 • 代表的なタスク：入力：画像出力：言語 → 画像キャプション生成入力：画像 +
言語出力：言語 → 画像質問応答（VQA）入力：言語出力：画像 → 画像生成（Text-to-Image）本講義では，入力が「画像 or 言語」，出力が「言語」の場合を取り扱う 1 Vision & Languageとは

• 入力：画像出力：言語 → 画像キャプション生成入力された画像についての説明文（キャプション）を生成するタスク 2 Vision & Language
のタスク ① Captioning Model A herd of zebras grazing with a rainbow behind. Stefanini et al. “ From show to tell: A survey on deep learning-based image captioning ” TPAMI 2022 をもとに作成

• 入力：画像 + 言語出力：言語 → VQA Visual Question Answering
(VQA) … 画像に関する質問に回答するタスク 3 Vision & Language のタスク ② VQA Model zebra What kind of animal shown in this image?

2回のパラダイム・シフト（深層学習登場・Transformer登場） • 深層学習登場以前 • この時点で基本的な取り組みは存在 • 深層学習登場〜Transformer登場 • 大幅な性能向上 •
モデルは各タスクに特化 • Transformer時代 • モデルの大規模化が可能に • マルチタスクを解くことができる大規模汎用モデルの開発 4 V&L 研究の歴史

目次 1. 基礎知識 2. 深層学習以前の研究 3. 深層学習時代の研究 4. 深層学習の発展 5.
データセット 6. 事前学習モデル 7. 大規模V&Lモデル + LLM 8. 大規模V&Lモデルの技術 9. 大規模V&Lモデルの改良

1. 基礎知識

• エンコーダー（Encoder, 符号化器） • 入力から特徴量を抽出する • 画像の場合：CNN，Vision Transformerなど（後述） •
テキストの場合：LSTM，Transformerなど（後述） • デコーダー（Decoder，復号化器） • 入力された特徴量から出力を生成する • エンコーダー・デコーダーモデル • 入力を特徴量に変換し，変換された特徴量から出力を生成する 7 モデル構造に関する用語エンコーダーデコーダー入力特徴量出力

• CNN（Convolutional Neural Network，畳み込みニューラルネットワーク） • 画像認識系タスクで用いられるニューラルネットワーク • 画像認識タスクで事前訓練し，最終層の出力を画像特徴量として用いることが多い 8 代表的なニューラルネットワークのモジュール①
https://en.wikipedia.org/wiki/Convolutional_neural_network#/media/File:Typical_cnn.png

• LSTM（Long Short Term Memory） • RNN（Recurrent Neural Network）の改良版 •
RNN：系列データ（テキストなど）を処理するために回帰的に処理を行うNN 系列長が長くなると勾配が消失・爆発するため学習が難しい • 複数のゲート関数を用いることで，勾配の消失・爆発を防ぐ • テキストのエンコーダーやデコーダーとして使われる 9 代表的なニューラルネットワークのモジュール② https://colah.github.io/posts/2015-08-Understanding-LSTMs/

Inputs Multi-Head Attention Position-wise FFN Add & Norm Add &
Norm (Masked) Multi-Head Attention Position-wise FFN Add & Norm Add & Norm Multi-Head Attention Add & Norm Token Embedding Token Embedding Linear & Softmax (Shifted) Outputs Output Probabilities Positional Encodings Positional Encodings !⇥ ⇥! • Transformer • LSTMなどのRNN系列モデルは， 1ステップずつ計算を行う必要があるため，学習が非効率 • Transformerは，self-attentionの積層によって入力を処理する → 適切にマスクを適用することで，複数ステップを並列処理することができる • CNNやLSTMと比べて表現力が大きく，大規模計算に適しているため，大規模モデルにおいては中核を担う 10 代表的なニューラルネットワークのモジュール③ Lin et al. “ A Survey of Transformers ” arXiv 2021.

2. 深層学習以前

いくつかのアプローチが考案される • 類似画像を検索 → 類似画像に付与されているキャプションを利用 • 画像中の物体や属性（attribute）を自動認識する（画像 → 単語リスト） →
画像から物体名称や属性等のリストを予測して，つなぎあわせて文章にする 12 深層学習以前

• 画像からトリプレット（<person, against, sofa> など）を予測 → テンプレート（ The <adj> <obj1>
is <prep> <obj2> など）にあてはめて文章を作成 13 Baby Talk Kulkarni et al. “ Baby talk: Understanding and generating simple image descriptions ” CVPR 2011.

3. 深層学習の時代

• 2012年，画像認識においてCNNがブレークスルーを実現 • 2014年，文章生成（機械翻訳）においてLSTMがブレークスルーを実現 • 2014年，キャプション生成にも深層学習の波が……！ • 深層学習時代におけるV&L研究の特徴 • 画像認識・自然言語処理/生成の両分野の知見が適用できるため，進歩が早い
• 例：画像認識分野からCNNエンコーダー，自然言語分野からLSTMデコーダー • V&Lならではの工夫をいかに取り入れるかが鍵 15 深層学習時代の到来 Krizhevsky et al. “ ImageNet Classification with Deep Convolutional Neural Networks. ” NIPS 2012. Sutskever et al., “Sequence to Sequence Learning with Neural Networks.” NIPS 2014.

• 基本：エンコーダー・デコーダーモデル • 画像エンコーダー：CNNなど • テキストデコーダー：LSTMなど • 処理の流れ：エンコーダーが画像特徴量を抽出，デコーダーが画像特徴量からテキストを生成 16
深層学習時代のキャプション生成エンコーダー A herd of zebras grazing with a rainbow behind. デコーダー

• 学習：交差エントロピー誤差を最小化するように学習 • V: 画像特徴量，yt : 文章中のt番目の単語 • 要するに：「画像とt-1番目までの単語」から，「t番目の単語」をもっともよく予測できるようにモデルを最適化
17 深層学習時代のキャプション生成エンコーダー A herd of zebras grazing with a rainbow behind. デコーダー画像特徴量 t-1番目までの単語 t番目の予測単語

• 深層学習によるキャプション生成の幕開け • アーキテクチャは非常にシンプル • エンコーダー： InceptionNet • デコーダー：
LSTM • MS COCOデータセットの40万件近いキャプションデータで学習 → 既存の非ニューラル手法を圧倒する性能 18 深層学習時代のキャプション生成：Show and Tell Vinyals et al. “ Show and Tell: A Neural Image Caption Generator ” CVPR 2015. エンコーダーデコーダー

• 基本：画像とテキストのエンコーダー + 識別器（MLP） 19 深層学習によるVQA What is the mustache
made of? 特徴量合成識別器 banana apple yellow hair 画像エンコーダーテキストエンコーダー

• 基本：画像とテキストのエンコーダー + 識別器（MLP） • 画像エンコーダー：CNNなど • テキストエンコーダー：LSTMなど 20 深層学習によるVQA
What is the mustache made of? 特徴量合成識別器 banana apple yellow hair 画像エンコーダーテキストエンコーダー

• 基本：画像とテキストのエンコーダー + 識別器（MLP） • 特徴量の合成：画像特徴量とテキスト特徴量を組み合わせるモジュール • 単純な要素和や要素積から複雑なモデリングまで，工夫の余地が大きい（後述） 21 深層学習によるVQA
What is the mustache made of? 特徴量合成識別器 banana apple yellow hair 画像エンコーダーテキストエンコーダー

• 基本：画像とテキストのエンコーダー + 識別器（MLP） • 識別器：回答を候補クラスの中から「識別」する（MLPなど） 22 深層学習によるVQA What is
the mustache made of? 特徴量合成識別器 banana apple yellow hair 画像エンコーダーテキストエンコーダーなぜ「生成」でなく「識別」として解くのか？回答はせいぜい数単語程度の短いフレーズ（yes, no, banana, …）であり，バリエーションが少ない → 回答の出現頻度上位3000個程度で90%以上をカバーできてしまう → 3000クラスの識別問題とした方が性能が上がる

• 初の深層学習によるVQAモデル • 画像エンコーダー：VGGNet，テキストエンコーダー：LSTM • 特徴量の組み合わせ：要素積 • 初の大規模なVQAデータセットを構築 23 深層学習によるVQA
Antol et al. “ VQA: Visual Question Answering ” ICCV 2015.

4. 深層学習の発展

• Attention（注意機構） • 強化学習を用いたfine-tune • 画像エンコーダーの性能向上 • （VQAの場合）画像・言語の特徴量の組み合わせ方の工夫 25 発展的な技術

• 画像・テキストのどこに注目すべきかを学習 • たとえばキャプション生成の場合 26 Attentionの概要 A herd of zebras
grazing with a rainbow behind. ը૾ Τϯίʔμ Attention ςΩετ σίʔμ 画像特徴量

• 通常のキャプション生成：画像特徴量を平均（プーリング）して入力 V: 画像特徴量，vi: 画像特徴量の各列，c: デコーダーに入力される特徴量 27 Attentionの計算 A herd
of zebras grazing with a rainbow behind. ը૾ Τϯίʔμ 平均 ςΩετ σίʔμ 画像特徴量 V

• Attentionを考慮したキャプション生成：画像特徴量の重み付き平均をデコーダーに入力 α: アテンションの重み係数（総和は1になるように正規化） 28 Attentionの計算 A herd of zebras
grazing with a rainbow behind. ը૾ Τϯίʔμ Attention ςΩετ σίʔμ 画像特徴量アテンションの重み係数はどうやって得るのか？

• h t : デコーダーLSTMのt番目の単語に対応する隠れ層の出力 • ht に対して何らかの計算を行うことで，et （正規化前の重み係数）を得る •
つまり：t番目の単語を出力するために役に立ちそうな局所画像特徴量に，大きな重みを与えたい 29 Attentionの計算アテンションの重み係数はどうやって得るのか？ → NNに学習させる

• h t : デコーダーLSTMのt番目の単語に対応する隠れ層の出力 • ht に対して何らかの計算を行うことで，et
（正規化前の重み係数）を得る • 何らかの計算：デコーダーの隠れ層出力（と画像特徴量）にNNを適用して計算する（一例） 30 Attentionの計算隠れ層出力画像特徴重み重み重み

• Attention機構つきのキャプション生成モデルの嚆矢 ✅ 各単語を出力する時のAttentionを可視化できる → 解釈性の向上 31 Attentionの例：Show, Attend,
and Tell Xu et al. “ Show, attend and tell: Neural image caption generation with visual attention ” ICML 2015.

• AttentionをVQAでも活用した研究 • 2段階に分けてAttentionを適用 • 1段階目：ざっくりしたAttention • 2段階目：1段階目の出力に対してAttentionを重ねがけ → より精緻なAttention
32 VQAにおけるAttention：Stacked Attention Yang et al. “ Stacked Attention Networks for image Question Answering ” CVPR 2016.

• キャプション生成の評価指標の値を報酬とする強化学習を導入 • 評価指標がなるべく良い値になるようにモデルを学習できる • 評価指標とは：BLEU，METEORなど • 基本的には，正解文章との一致度を測るスコア 33 強化学習によるfine-tune
エンコーダー A herd of zebras grazing with a rainbow behind. デコーダー報酬（評価指標）強化学習損失

• 報酬として用いられる評価指標 • 例：BLEUスコア • n-gram（連続するn単語の組）単位でのprecisionをベースとした指標 34 強化学習によるfine-tune n-gram precisionの計算例（n=2の場合）
正解文：A herd of zebras grazing with a rainbow behind. 生成文：Some zebras are standing with a rainbow behind. 2-gramの抽出正解文：["A herd", "herd of", "of zebras", "zebras grazing", "grazing with", "with a", "a rainbow", "rainbow behind"] 生成文：["Some zebras", "zebras are", "are standing", "standing with", "with a", "a rainbow", "rainbow behind"] 一致する2-gram：[“with a”, “a rainbow”, “rainbow behind”] の3つ n-gram precision = （一致するn-gram数）/ （生成文の全n-gram数） = 3 / 7 ≒ 0.43 ※ BLEUスコアを計算する際は，文章長に基づくペナルティ項など，さらにいくつかの処理が行われる Papineni et al. “ BLEU: a method for automatic evaluation of machine translation ” ACL 2002.

• 評価指標を最大化するような損失関数を設計したい（! ": 正解文，y: 生成文，v: 画像） • しかし，報酬の計算は微分できない操作を含む →
勾配降下法で最適化できない → 方策勾配定理を用いると，報酬の勾配は「方策の確率の勾配」と「報酬」の積の期待値で表すことができる 35 強化学習によるfine-tune 報酬報酬方策の確率の勾配損失の勾配

• キャプション生成において，CIDErスコアを最適化するように強化学習 • 特に，レアな状況における生成品質が改善 • 生成例従来手法でのキャプション： a blue
of a building with a blue umbrella on it 強化学習手法のキャプション： a blue boat is sitting on the side of a building 36 強化学習の応用例：Self-critical Sequence Training Rennie et al. “ Self-critical Sequence Training for Image Captioning ” CVPR 2017.

• 画像キャプションや，VQAにおいて，画像中の物体は頻繁に言及される → 画像全体を均一にとらえるより，画像中の物体にフォーカスすべき？ • 物体領域ベースの特徴量 1. 専用の物体検出モデル（Faster
R-CNN）を訓練 2. 訓練した物体検出モデルで，物体領域を検出 3. 各領域ごとの特徴量を抽出 37 画像エンコーダーの工夫：検出モデルでの特徴抽出 Anderson et al. “ Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering ” CVPR 2018. Grid特徴量（従来モデル）領域特徴量

• 画像特徴量を領域ベースに置き換えるだけで性能向上 • キャプション生成：MSCOCO BLEU-4 が 7%向上 • VQA：VQAv2 accuracy
が 6%向上 38 画像エンコーダーの工夫：検出モデルでの特徴抽出 Question: What room are they in? Answer: kitchen Anderson et al. “ Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering ” CVPR 2018.

• 本当に物体領域そのものが重要なのか分析 • 物体検出モデルからGrid特徴を抽出して実験 → 領域特徴と遜色ない性能 • 物体領域そのものではなく，画像エンコーダーを学習するタスクが重要である可能性を示唆 39 画像エンコーダーの工夫：Grid特徴量の復権
Jiang et al. “ In Defense of Grid Features for Visual Question Answering ” CVPR 2020.

• 要素和，要素積，連結（concat） ✅ シンプル ❌ 部分的にしか特徴量が組み合わせられていない • 外積（outer product） ✅
すべての特徴量が組み合わせられる ❌ 特徴量のサイズが莫大になってしまう 40 特徴量の組み合わせ要素和の場合：対応する要素しか組み合わせられない外積の場合：組み合わせた後の特徴サイズが大きい 2048次元 2048次元 2048×2048 ≒ 400万

• Multimodal Compact Bilinear Pooling • カウントスケッチ関数を用いて，各モーダルの特徴量を低次元に射影 • カウントスケッチベクトルの外積は，FFT（高速フーリエ変換）で効率的に計算可能 →
通常の外積計算に比べて，パラメータ数を大幅に削減可能（論文中では約0.3%に削減）（Ψ: カウントスケッチ関数，⊗: 外積，⊙：要素積） 41 特徴量の組み合わせ：MCB Fukui et al. “ Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding ” EMNLP 2016.

• 通常の双線型モデル y: 出力特徴量ベクトル（o次元） v1, v2: 入力ベクトル（m, n次元） W: 重みベクトル（m×n次元）
• 問題：Wの次元が大きすぎる → Wを低次元行列U, Vの積に分解（m×ko次元，n×ko次元） • Multimodal Factorized Bilinear Pooling 合計プーリング（Sum Pooling）を用いることで，yを効率よく計算可能 42 特徴量の組み合わせ：行列分解に基づく方法 Yu et al. “ Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering ” ICCV 2017.

5. データセット

• タスクごとにさまざまなデータセットが構築されている • クラウドソーシングを用いて構築されているものが多い • 右図：AMT（Amazon Mechanical Turk; https://www.mturk.com/ ）での
データ作成画面のスクリーンショット • AMT … Amazonが提供するクラウドソーシングサービス • 概して安価（安価すぎるという批判もあり） • クオリティ担保のための取り組みが必須 • 自明な質問によるフィルタリング • 複数人の回答を統合 • Qualified Workerの指定 44 V&Lデータセット Uehara&Harada. “ K-VQG: Knowledge-aware Visual Question Generation for Common-sense Acquisition ” WACV 2023.

• 画像に対して様々なアノテーションが付与されたデータセット • 物体検出用のバウンディングボックス • セグメンテーション用のマスク • キャプション • V&Lタスク的には，キャプションが使われる
• 1画像につき5個程度のキャプション • 画像：約8万件，キャプション：約40万件 • キャプション生成関連のあらゆる研究で使われるデファクトスタンダード的なデータセット 45 MSCOCO Lin et al. “ Microsoft COCO: Common Objects in Context ” ECCV 2014.

• 画像に対して様々なアノテーションが付与されたデータセット • 基本的に，画像の領域ごとにアノテーションが付与されている • 領域キャプション • 領域に関するVQA
• 領域の物体ラベル • シーングラフ ※ シーングラフ：画像中の物体の関係性をグラフとして表したもの • 画像：約10万件，領域キャプション：約500万件，領域VQA：約180万件 46 Visual Genome Krishna et al. “ Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations ” IJCV 2017.

• VQAデータセット • 画像はMSCOCOのものを使用 • 1つの質問につき，10人のアノテーターが回答を付与 • VQA v1とv2の2世代のデータセットがある •
v1はアノテーションバイアスが大きかった（例：Is there~系への回答がyesになりがち） → v2ではバイアスを減らす工夫が行われている 47 VQA Agrawal et al. “ VQA: Visual Question Answering ” ICCV 2015. Goyal et al., “Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering”, CVPR 2017.

• 画像中の領域に関するキャプションのデータセット • 画像はMSCOCOを使用 • RefCOCO, RefCOCO+, RefCOCOgの3種類がよく用いられる • RefCOCO,
RefCOCO+は，「キャプションをもとに物体を当てるゲーム」形式で収集 • RefCOCOgは，通常のアノテーション + 別のアノテーターによるバリデーション 48 RefCOCO Kazemzadeh et al. "ReferItGame: Referring to Objects in Photographs of Natural Scenes." EMNLP 2014. Yu et al. "Modeling Context in Referring Expressions." ECCV 2016.

• 画像中の文字認識（OCR）を含むキャプションデータセット • 従来のキャプションデータセットは，画像中の文字に関する言及は稀であった • 画像：約3万件，キャプション：約15万件 • 画像とキャプションに加え，文字が存在する領域ボックスの座標情報もあり 49 TextCaps
Sidorov et al. "TextCaps: a Dataset for Image Captioning with Reading Comprehension." ECCV 2020.

• 従来のデータセットは人手でアノテーションされており，高品質だが高コスト • web上にある画像と，画像に紐づけられたテキスト（altテキストなど）を活用すれば，低コストで大量のデータを集められる……？ • CCデータセット（Conceptual Captions） • web上の画像と，altテキストをもとに
データセットを構築 • altテキストは非常にノイズが多いため，様々なフィルタリング・クリーニングを適用 • 大規模モデルの事前学習（後述）など，質より量が優先される学習で使われる 50 CC-3M, 12M Sharma et al. "Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning." ACL 2018. Changpinyo et al. “Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts” CVPR 2021.

• webをクロールして作成された大規模データセット • 400M（4億枚）．5B（50億枚）など，規模によっていくつかの種類がある • いくつかの自動フィルタリングは行われているものの，大規模すぎて人間のチェックは不可能 → 画像の権利問題や，NSFW画像の存在などが指摘され，現在（2024/6/1）公開停止中 51 LAION
Schuhmann et al. "LAION-5B: An open large-scale dataset for training next generation image-text models." NeurIPS 2022 (Dataset Track). Schuhmann et al. “LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs” NeurIPS Workshop 2021.

6. 事前学習モデル

• （言語における）事前学習の目的 • 個別のタスクに依存しない汎用的な言語理解能力の獲得 • 言語能力は，基本的には単語予測能力によって推定することができる（とされる） → 単語予測タスクで大規模な学習を行うことで，汎用的な言語能力を獲得できる 53 事前学習モデルの時代
事前学習モデル事前学習 → タスク特化モデル個別タスクコーパス事前学習 Fine-tune

• エンコーダーonlyモデル • 主に入力の特徴量を得るための学習を行う • デコーダーonlyモデル • テキスト生成タスクでデコーダーを学習 • エンコーダー・デコーダーモデル
• エンコーダー・デコーダーの両方を学習 54 事前学習モデルの構造 The hope <MASK> rings … Transformer Encoder Transformer Decoder The hope bell rings … The hope bell rings … the field bears fruit The hope <MASK> rings … the field bears <MASK> Transformer Encoder Transformer Decoder The hope bell rings … … the field bears fruit エンコーダーonly デコーダーonly エンコーダー・デコーダー

• 単語予測の方法 • Masked Language Modeling（MLM）… ランダムにマスクした単語を予測する • 主にエンコーダーonlyモデルで採用される •
Causal Language Modeling (CLM) … 前の単語列から，次の単語を予測する • 主にデコーダーonlyモデルで採用される 55 事前学習モデルの学習 Language Model the hope bell rings, the field bears fruit the hope <MASK> rings, the field bears <MASK> the hope bell rings, the field bears Language Model the hope bell rings, the field bears fruit MLM CLM

• MLM派閥の代表的なモデル • マスクされたトークンを周辺文脈から予測する Masked Token Modeling と 2つの文章が連続するかどうかを予測する Next
Sentence Prediction で学習 56 BERT Devlin et al. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." NAACL 2019.

• エンコーダー・デコーダーモデルの事前学習 • 様々なタスクを統一的に学習 • タスクの区別は，入力の前につけるprefixで行う（summarize: translate: など） • 目的関数はMLM
57 T5 Raffel et al. "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer." JMLR 2020.

• V&Lの分野にも事前学習の波が押し寄せる • V&Lにおいては，テキストと画像の関係性をうまく学習できる必要がある 59 V&Lモデルの事前学習事前学習モデル事前学習 → タスク特化モデル
個別タスクデータ VQA, キャプション, … 事前学習 Fine-tune

• V&L事前学習モデルの学習タスク • 基本的には言語事前学習にならったものが多い • Masked Language Modeling • 言語モデルの場合と同様
• Masked Image Modeling • マスクされた画像領域の特徴量を予測 • Image-Text Matching • 画像とテキストがペアかどうかを予測（2値分類） etc… 60 V&Lモデルの事前学習

• V&L事前学習モデルの分類 • Single-streamモデル：両モダリティを単独のTransformerエンコーダーで処理する • Two-streamモデル：各モダリティごとにエンコーダーを用意，後段に統合用のTransformerエンコーダーを接続 61 V&Lモデルの事前学習 Self-Attention
Transformer A young man with banana Self-Attention Transformer A young man with banana Self-Attention Transformer Cross-Attention Transformer Single-stream Two-stream

• V&L事前学習モデルをダウンストリームタスクで使うとき • 学習済みのエンコーダーとして使用し，各タスクごとにfine-tune • 旧世代のモデルでいうと，事前学習済みエンコーダーは「各モダリティのエンコーダー」+「特徴量の統合モジュール」までの役割を担う 62 V&L事前学習モデルの活用事前学習済みモデル
zebra What kind of animal shown in this image? 識別器事前学習済みモデル There are zebras … デコーダー VQAの場合キャプション生成の場合

• Single-stream型のモデル • 事前学習タスクはMLM, MRM（マスクされた領域特徴を予測），ITM, WRA（単語と画像領域のマッチング） 63 UNITER Chen
et al. "UNITER: UNiversal Image-TExt Representation Learning." ECCV 2020.

• Two-stream型のモデル • 事前学習タスクはMLM, ITM, MRM, VQA 64 LXMERT Tan&Bansal
"LXMERT: Learning Cross-Modality Encoder Representations from Transformers." EMNLP 2019.

• 画像エンコーダーからCNNを廃したfull-transformerモデル • 事前学習タスクはMLM, ITM, Word Patch Alignment（単語と画像領域のマッチング） 65 ViLT
Kim et al., "ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision." ICML 2021.

• 分類・回帰タスクではなく，テキスト生成タスクでの事前学習 • VQA，キャプション生成などの多様なタスクをテキスト生成タスクに変換し，大規模に学習 → 後のLLMベースのモデルの先駆け的手法 66 VL-T5 Cho
et al., "Unifying Vision-and-Language Tasks via Text Generation." ICML 2021.

• Transformerベースの画像エンコーダー・テキストデコーダーから抽出される各モダリティの特徴量同士のマッチングを学習 • モデル・損失関数の設計は非常にシンプル • 大規模データを用いた学習の恩恵により，画像・テキストの意味的類似度を非常に精度良くとらえることができる →
様々なV&Lモデルで画像特徴抽出器として用いられる 67 CLIP Radford et al., "Learning Transferable Visual Models From Natural Language Supervision." ICML 2021.

7. 大規模 V&L モデル + LLM

• 大規模言語モデル（LLM）の発展に伴い，LLMを取り入れたモデルが主流に • テキストデコーダーとして訓練済みLLMを利用 69 大規模 V&Lモデル（LLMベース） Image Encoder Adapter
LLM A dog is sitting next to the teddy-bear. Please describe this image.

• 大量のテキストデータで学習された大規模モデル • モデルの規模：数Bパラメータ以上くらい？明確な定義はなしオープンな大規模モデルだと7B以上くらいが多い印象 • テキストデータの規模：数百Bトークン以上？ • 事前学習 →
Instruction Tuning → アラインメントという流れで学習されることが多い • 事前学習：大量の雑多なテキストで学習 • Instruction Tuning：タスクに関する指示文・入力から適切な応答を行うように学習 • アラインメント：人間のフィードバックに従うように強化学習（RLHF） 70 LLMとは

• LLaMAシリーズ（v1, v2, v3） • Metaが継続的に開発 • weightやコードが公開されており，性能も高いためよく使われる • Vicuna
• LLaMAに対して追加でinstruction tuningを行ったモデル • 対話系タスクでの性能が向上，応答の自然さが強み • Gemma • Googleのモデル • これもweightやコードが公開されているため，最近の注目株 71 代表的な（オープンな）LLM Touvron et al., "LLaMA: Open and Efficient Foundation Language Models." arXiv 2023. Touvron et al., “Llama 2: Open Foundation and Fine-Tuned Chat Models.” arXiv 2023. Chiang et al., “Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90% ChatGPT Quality.” at https://lmsys.org/blog/2023-03-30-vicuna/ Gemma Team, “Gemma: Open Models Based on Gemini Research and Technology.” arXiv 2024.

• 画像エンコーダー + アダプター + LLM • 画像を特徴量に変換 • 訓練済みのモデル（主にCLIP）が用いられる
72 大規模 V&Lモデルのパーツ Image Encoder Adapter LLM A dog is sitting next to the teddy-bear. Please describe this image.

• 画像エンコーダー + アダプター + LLM • 画像特徴量をLLMに入力できるように変換 • 他のモジュールは訓練済みのものを用いることが多いが，アダプターはゼロから訓練
73 大規模 V&Lモデルのパーツ Image Encoder Adapter LLM A dog is sitting next to the teddy-bear. Please describe this image.

• 画像エンコーダー + アダプター + LLM • 訓練済みのLLMを利用 • 例：LLaMA,
vicuna, gemmaなど 74 大規模 V&Lモデルのパーツ Image Encoder Adapter LLM A dog is sitting next to the teddy-bear. Please describe this image.

• LLMの訓練同様，訓練を複数ステージに分けて行うことが多い • 事前訓練 → Instruction Tuning → Fine-tuning •
各ステージごとに，訓練に使うデータの性質が大きく異なる 75 大規模 V&Lモデルの訓練 ~Billions ~Millions ~100K 事前訓練データ Instruction-tuning データ Fine-tuning データ質より量 webクロールデータなど量より質指示文つきデータ量より質タスク特化

• 事前訓練 → Instruction Tuning → Fine-tuning ※ 一例 •
画像エンコーダーとLLMはフリーズ，アダプターのみ訓練 • アダプターによる画像特徴量とテキスト特徴量をAlignmentを学習 76 大規模 V&Lモデルの訓練①：事前訓練 Image Encoder Adapter LLM A dog is sitting next to the teddy-bear. Please describe this image.

• 事前訓練 → Instruction Tuning → Fine-tuning • 学習に用いるデータセットは，webクロール系（CC, LAION,
…）を用いることが多い • この段階では，画像とテキストの対応関係をざっくり学習できればよい • 質より量が重要 77 大規模 V&Lモデルの訓練①：事前訓練 Image Encoder Adapter LLM A dog is sitting next to the teddy-bear. Please describe this image.

• 事前訓練 → Instruction Tuning → Fine-tuning ※ 一例 •
画像エンコーダーはフリーズ，アダプターとLLMを訓練 • Instructionに応じたテキスト生成を学習 78 大規模 V&Lモデルの訓練②：Instruction Tuning Image Encoder Adapter LLM A dog is sitting next to the teddy-bear. Please describe this image.

• 事前訓練 → Instruction Tuning → Fine-tuning • データセットは，Instruction（指示文）+ 回答の形式のデータ
• なるべく品質もよいものを使いたい → MS COCOなど，高品質なデータに指示文を追加して使用 • 近年では，GPTなどにInstructionデータを自動生成させて学習に用いることも • 利用規約的にはグレーゾーン（GPTの出力を競合モデルの開発に用いることは禁止） 79 大規模 V&Lモデルの訓練②：Instruction Tuning 指示文の例（MultiInstruct） VQA：Answer the question <QUESTION> based on the content of the given image Grounded Captioning：Given the region <REGION> in the image, generate a caption for that region Xu et al. "MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning." ACL 2023.

• 事前訓練 → Instruction Tuning → Fine-tuning • 画像エンコーダーはフリーズ，アダプターとLLMを訓練 •
ダウンストリームタスクに特化した学習 80 大規模 V&Lモデルの訓練③ Image Encoder Adapter LLM A dog is sitting next to the teddy-bear. Please describe this image.

• 画像エンコーダー：CLIP，LLM：OPT, Flan-T5 • Adapter：Q-Former • 画像特徴量を，固定長のクエリベクトルで表現するように学習 81 大規模 V&Lモデル：BLIP-2
Li et al. "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models." ICML 2023.

• 学習 • Stage 1（アダプターの事前訓練）：Q-Formerのみ訓練．損失は，① 画像テキストマッチング損失，② 画像テキスト対象損失，③ テキスト生成損失 •
Stage 2（LLMも含めた訓練）：LLMのテキスト生成損失で訓練．ただしBLIPではLLM自体は訓練しない 82 大規模 V&Lモデル：BLIP-2 Li et al. "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models." ICML 2023.

• 画像エンコーダー：NFNet，LLM：Chinchilla • アダプター：Perceiver Resampler + Gated cross-attention 83 大規模
V&Lモデル：Flamingo Alayrac et al. "Flamingo: a Visual Language Model for Few-Shot Learning." NeurIPS 2022.

• Perceiver Resampler • 画像特徴量を固定長ベクトルに変換 • Gated cross-attention • 変換後の固定長ベクトルとテキスト特徴のAttentionを計算
• LLMの各レイヤーに追加される 84 大規模 V&Lモデル：Flamingo Alayrac et al. "Flamingo: a Visual Language Model for Few-Shot Learning." NeurIPS 2022.

FlamingoやBLIP-2のアダプターは複雑かつパラメータが多く高コスト → シンプルなMLPをアダプターとして用いる • 画像エンコーダー：CLIP，LLM: vicunaなど • アダプター：MLP 構造・実装がシンプルであるため，様々な派生研究でベースとして用いられている 85
大規模 V&Lモデル：LLaVA Liu et al. "Visual Instruction Tuning." NeurIPS 2023.

• 画像エンコーダーをも廃したシンプルな構造 • 画像をパッチに分割し，各パッチごとに線形層を通すだけで，テキストとほぼ同様に扱う 86 大規模 V&Lモデル：Fuyu Bavishi et al.
”Fuyu-8b: Introducing our Multimodal Models.” at https://www.adept.ai/blog/fuyu-8b/

8. 大規模 V&L モデルの技術

• モデル・学習データの大規模化に伴い，要求される計算資源も大規模化 • 10B以上のパラメータを持つモデルを学習する場合，マルチGPU・マルチノードでの分散学習が必須 • ここでは，1ノードに複数のGPUが搭載されている環境を想定する • 分散学習を行う場合，通信オーバーヘッドをなるべく抑える必要がある •
なるべく通信の回数を減らす • ノード間通信はノード内通信よりも遅いため，ノード間通信はなるべく減らす 88 大規模学習の技術

• 深層学習においては，float32の数値範囲は往々にして不要 → 精度を落としてメモリ効率を向上させることができる • bfloat16：指数部の範囲がfloat32と同等深層学習においては，仮数の精度はそこまで重要ではない一方，勾配計算の際に大きな値を取る可能性がある • 一部の計算（バッチ正規化，softmaxなど）はFP32で計算する必要がある
→ BF16とFP32を切り替えながら計算を行う（混合精度計算） 89 混合精度計算 https://developer.nvidia.com/blog/accelerating-ai-training-with-tf32-tensor-cores/

• データを複数GPUに分散して送信して処理 • すべてのモデルパラメータのコピーを各GPUが持つ • （通信時間等を無視すれば）GPU数倍の高速化が可能 ✅ 実装が簡単 ❌ モデルが1GPUに乗る必要があるため，
大規模モデルには不向き 90 分散学習：Distributed Data Parallel https://colossalai.org/docs/concepts/paradigms_of_parallelism

• DDPではモデルのコピーを各GPUが持つため，1枚のGPUにモデルが乗り切らない場合は使用できない → モデルのパラメータ自体の一部のみを各GPUにもたせる • 大きくわけて，テンソルパラレル（TP）とパイプラインパラレル（PP）の2種類がある 91 分散学習：モデルパラレル

• 行列計算は小行列に分割して計算することができる例：Aを列方向に3つに分割する場合 • 行列を分割して計算 → 適切なタイミングでの集約を繰り返すように実装することで， 1GPUに乗らないモデルの計算を，マルチGPUで計算することができる 92 分散学習：モデルパラレル（Tensor
Parallel） https://huggingface.co/docs/text-generation-inference/conceptual/tensor_parallelism

• モデルをレイヤーごとに分割し，各GPUに順番に配置・計算 • ナイーブに実装すると，Forward・Backward計算の待ち時間（Bubble）が発生してしまう → 様々な方法でBubbleをなるべく減らす工夫が行われている 93
分散学習：モデルパラレル（Pipeline Parallel） https://colossalai.org/docs/concepts/paradigms_of_parallelism Huang et al., “GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism.” NeurIPS 2019.

• データパラレル（DP）・テンソルパラレル（TP）・パイプラインパラレル（PP）は，同時に適用することができる → 3D Parallelismと呼ばれる • なお，各手法をどのように適用するかは慎重に考える必要がある例：TPは通信オーバーヘッドが大きいため，なるべくノード間通信が発生しないようにする 94
分散学習：3D Parallelism https://www.microsoft.com/en-us/research/blog/deepspeed-extreme-scale-model-training-for-everyone/

• データパラレルでは，モデルのコピーを全GPUで保持する必要があった → モデルや勾配，optimizerの一部ずつを分散して配置することでメモリを削減する • 足りないパラメータは，必要なタイミングで他のGPUから送ってもらう 95 分散学習：ZeRO-DP https://www.microsoft.com/en-us/research/blog/zero-deepspeed-new-system-optimizations-enable-training-models-with-over-100-billion-parameters/

• Transformerの学習はマスク計算で高速だが，推論はステップごとに逐次計算が必要 → 時間がかかる • 推論高速化技術 • Transformerの計算自体の高速化 • 量子化
• Speculative Decoding 96 大規模モデルの推論

• Flash Attention （v1, v2） • GPUメモリにはHBMとSRAMの2種類 • HBM ：メインメモリ．大容量だが低速
• SRAM：キャッシュメモリ．高速だが低容量 • v1：なるべくHGMへのアクセスを減らすことで高速化を実現 • v2：GPUに最適化された実装・並列化などにより v1と比べて2倍程度高速化 97 大規模モデルの推論：Transformerの高速化 Dao et al., “FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness.” NeurIPS 2022. Dao. “FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning.” ICLR 2024. https://huggingface.co/docs/text-generation-inference/conceptual/flash_attention

• 訓練時はfloat16程度までの低精度計算が可能だった • 推論時は，勾配計算等が必要ないため，さらに大胆な量子化を行うことができる • 例：int8量子化 • int8は -128~127 の256種類の値しか表現できない
→ シンプルに量子化（均一量子化）すると小数や大きな数が表現できない • もとの数（x）をスケーリング係数（S）で割り，オフセット係数（Z）を足すことで，適当な値へのマッピングを行う 98 大規模モデルの推論：量子化

• より軽量なモデルに「ドラフト」を生成させて，LLMにそれを「検証・修正」させる • 検証のlatencyは小さい（訓練時と同様，マスクを利用することで高速に計算可能） → 高速な軽量モデルが「間違えた」ときだけLLMが生成を行うことで，高速化が可能 ※ 通常，検証は数トークンに一回のみ行う 99 Speculative
Decoding Stern et al., “Blockwise Parallel Decoding for Deep Autoregressive Models.” NIPS 2018.

9. 大規模 V&L モデルの改良

• 画像の特定領域に関する指示への対応 • 異なる画像特徴量の組み合わせ • 高解像度対応 • 学習・推論の効率化 101 大規模
V&Lモデル改良のポイント

• 特定の画像領域に関する指示への対応 • 「画像中のこの場所について説明してほしい」など • 大規模モデル以前でも，領域に応じたキャプションを生成する研究は存在例：参照表現生成（Referring Expression Generation） •
画像と領域座標が与えられたとき，その領域について説明するキャプションを生成 • キャプション生成モデルと，キャプションから領域を推定するモデル（Listener）を同時に訓練 102 領域指示への対応 Yu et al., “A Joint Speaker-Listener-Reinforcer Model for Referring Expressions.” CVPR 2017.

• 領域座標をテキストプロンプトとして与える例： <s> <image> Image Embedding </image> <grounding> <p>
It </p><box><loc44><loc863></box> seats next to <p> a campfire </p><box><loc4><loc1007></box> </s> • 領域座標は，32×32 = 1024のグリッドで表現し，<loc左上座標><loc右下座標> の形で表現 103 領域指示への対応：KOSMOS-2 Peng et al., “Grounding Multimodal Large Language Models to the World.” ICLR 2024.

• CLIP特徴量にRoIAlignを適用して，領域レベルの画像特徴を獲得 • テキストプロンプト中の該当するテキスト特徴を，領域画像特徴に置き換え 104 領域指示への対応：GPT4RoI Zhang et al., “GPT4RoI:
Instruction Tuning Large Language Model on Region-of-Interest.” arXiv 2023.

• CLIP特徴量をベースに，領域内の特徴をサンプリング • サンプリング：領域内の各座標から，なるべく均等な点をサンプリング → max poolingで集約 105 領域指示への対応：Ferret You
et al., “Ferret: Refer and Ground Anything Anywhere at Any Granularity.” ICLR 2024.

• 画像に「マーク」をつけて領域を指示 • CLIPの特徴量を中間層からも抽出することで，「マーク」のようなlow-level特徴を獲得 • 学習データは，既存の領域アノテーションデータに自動でマークを追加することで作成 106 領域指示への対応：ViP-LLaVA Cai et
al., “ViP-LLaVA: Making Large Multimodal Models Understand Arbitrary Visual Prompts.” CVPR 2024.

• 既存のVLMは，画像中の小さな物体を見逃してしまうことが多い 107 高解像度対応 Q. Based on that advertisement board,
can you tell what type of shop is in the image? https://huggingface.co/blog/visheratin/vlm-resolution-curse

• 既存のVLMは，画像中の小さな物体を見逃してしまうことが多い 108 高解像度対応 Q. Based on that advertisement board,
can you tell what type of shop is in the image? GPT-4V: The shop in the image is a café or coffee shop. LLaVA: No, I cannot determine the type of shop in the image based on the advertisement board. The advertisement board is located near the sidewalk, but it does not provide enough information to identify the specific type of shop. GT. yoga practice https://huggingface.co/blog/visheratin/vlm-resolution-curse

• 既存のVLMは，画像中の小さな物体を見逃してしまうことが多い • 多くの場合，訓練済み画像エンコーダーの制約による • CLIPは，224×224や336×336の画像入力にしか対応していない • 特に文字認識の性能向上を阻む要因となっている • 画像中の文字は，比較的小さいことが多いため
109 高解像度対応

• 画像をいくつかの小領域に分割 → それぞれエンコード → concatしてLLMに入力 • 同時に，元の画像を低解像度にリサイズして，大域特徴として用いる 110 高解像度対応：LLaVA-NeXT
Liu et al., “LLaVA-NeXT: Improved reasoning, OCR, and world knowledge.” at https://llava-vl.github.io/blog/2024-01-30-llava-next/

• 高解像度対応の訓練済み画像エンコーダーを用いる • SAM（Segment Anything Model）のエンコーダーは1024×1024に対応している → SigLIPとSAMの特徴量を同時に用いる 111 高解像度対応：DeepSeek-VL
Lu et al., “DeepSeek-VL: Towards Real-World Vision-Language Understanding.” arXiv 2024.

• 複数の画像特徴量を合わせたLLaVA-MoF（Mixture-of-Feature）を提案 • CLIPの特徴量は，「意味的な」類似性を捉えている → 「意味的に」類似していても「視覚的に」異なる画像をうまく扱えない（例：「床に寝ている犬」と「カーペットに寝ている犬」を区別できない） • CLIPとDINOの特徴を組み合わせることで性能向上を確認 112
異なる画像特徴量の組み合わせ：LLaVA-MoF Tong et al., “Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs.” arXiv 2024.

• 大規模モデルは時間計算量・空間計算量ともに大きい • なお，V&Lモデルの計算量・パラメータ数のほとんどはLLMによって占められている → 軽量なLLMの活用 + アダプターの軽量化 • 軽量なLLMの例
• MobileLLaMA, TinyLLaMA • LLaMA2のダウンサイジング版（1B~2B程度） • Phi-1, 2, 3 • Microsoftが開発している軽量なLLM （2B程度） • 学習データの品質を高めることで，小さなモデルでも高性能を達成 113 学習・推論の効率化 Zhang et al., “TinyLlama: An Open-Source Small Language Model.” arXiv 2024. Gunasekar et al., “Textbooks Are All You Need.” arXiv 2023. Abdin et al., “Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone.” arXiv 2024.

• アーキテクチャはLLaVAがベース • LLMをMobileLLaMAに変更 • アダプターのパラメータ削減を工夫 • LDP • Depthwise
convolutionを用いた構造 • ストライドを2に設定し，出力トークン数を1/4に削減 • LDPv2 • Depthwise convolutionを一部廃し， Average Poolingに置き換え 114 学習・推論の効率化：MobileVLM v1, v2 Chu et al., “MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices.” arXiv 2023. Chu et al., “MobileVLM V2: Faster and Stronger Baseline for Vision Language Model.” arXiv 2024. LDP(v1) LDP(v2)

• VLM分析論文による知見（分析するモデルによって異なる結論になることもあるので注意） • 事前学習フェーズは実は必要ない？[1, 4] • 画像の解像度は高い方がよい [2, 3, 4,
5] • アダプターの構造はさほど影響がない [3] • V&Lデータだけでなく，テキストonlyデータも使って学習するとよい [3] • 画像エンコーダーのfine-tuneは不要 [4] • （パラメータ数が同等の場合）言語モデルの性能も大きくは影響しない？ [4] • パラメータ数が同等でも，性能の高い言語モデルを使うべきという説も [2] • パラメータ数が大きい言語モデルの方が最終的な性能がよい [1] • 言語モデルだけでなく，画像モデルのパラメータ数も増やしたほうがよい [5] 115 その他の知見 [1] Lu et al., “DeepSeek-VL: Towards Real-World Vision-Language Understanding.” arXiv 2024. [2] Laurençon et al., “What matters when building vision-language models?” arXiv 2024. [3] McKinzie et al., “MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training.” arXiv 2024. [4] Karamcheti et al., “Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models.” ICML 2024. [5] Chen et al., “How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites.” arXiv 2024.

• Vision&Language技術の研究 • Transformer以前：個別タスクごとに特化モデルを学習 • Transformer以後：汎用な大規模モデルを事前学習し，マルチタスク対応 • 最近の主流はLLMを統合した事前学習モデル • 画像エンコーダー
+ アダプター + テキストデコーダー（LLM） • Computer Vision・Natural Language Generation/Understandingの両分野の知見に加え，融合分野ならではの工夫も必要 116 まとめ

自然言語とVision&Language

自然言語とVision&Language

More Decks by Kohei Uehara

Other Decks in Research

Featured

Transcript