CVIM 2025/03 チュートリアル画像認識における基盤モデル

画像認識における基盤モデル OMRON SINIC X Senior Researcher 齋藤邦章

2 画像認識における基盤モデル(VL-Model)とは • 入力画像に対し言語で様々な入出力を表現できるモデル – 言語モデルの発展 – 様々なタスクを言語タスクで表現可能 segmentation dog
(x0 =250, y0 =320), (x1 =251, y1 =320), . . dog (xmin ,ymin ) = (240, 280), (xmax ,ymax )= (300, 350), object detection image classification dog image captioning A dog running on a grass VQA Q. What is the dog doing? A. running

今日の内容、目的 • 基盤モデルの現在までの変遷を見る • 重要なテクニック、学習の背後にある考え方を掴む – データ – アーキテクチャ –
学習Objective 3

4 AlexNet 爆誕 ! 2021 2012 CLIP 大量の画像とテキストペアを使ったモデル
2023 LVLM, MLLM (Large Vision Language Model) (Multimodal Large Language Model) LLMとの接続 LLAVA, BLIP 2024-2025 LVLM 群雄割拠の時代基盤モデルの変遷 1. CLIP 2. CLIPの改善 3. LLMとの接続

CLIP 5

CLIP 6 物体検出説明文生成猫と犬が2匹ずつピンクの背景の前にいます。識別猫、犬
基盤モデル猫と犬が2匹ずつピンクの背景の前にいます。猫、犬 2021 2012 CLIP以前 CLIP以後

学習データセット • Common Crawlの<alt text>のテキストと対応する画像 • 400Mのペア • ドメインが多様 •
多分LAIONデータ（CLIP論文に明確にそうとは書いてない） 7 https://laion.ai/blog/laion-400-open-dataset/

8 Unified Contrastive Learning in Image-Text-Label Space, CVPR2022 画像エンコーダ
テキストエンコーダオレンジと灰色の鳥共通空間 Objective ペアの類似度を上げたい。非ペアは類似度を下げたい。目的：ペアが近くに配置されるような埋込を学習説明文(キャプション)

画像とテキスト間のContrastive Loss 9 1. 画像からテキストを持ってこれるか 2. テキストから画像を持ってこれるか合計するペアの類似度を上げたい。非ペアは類似度を下げたい。

10 ペアの類似度を上げたい。非ペアは類似度を下げたい。画像とテキスト間のContrastive Loss 合計する 1. 画像からテキストを持ってこれるか 2. テキストから画像を持ってこれるか

11 ペアの類似度を上げたい。非ペアは類似度を下げたい。画像とテキスト間のContrastive Loss 合計する 1. 画像からテキストを持ってこれるか 2. テキストから画像を持ってこれるか

12 ペアの類似度を上げたい。非ペアは類似度を下げたい。画像とテキスト間のContrastive Loss 1. 画像からテキストを持ってこれるか 2. テキストから画像を持ってこれるかバッチサイズが一つの鍵!
・Negative サンプルを増やすことができる・CLIPでは32,768 ・異なるGPUから特徴を集めて計算・256 V100, 12 days, ViT-L/14

識別タスクへの応用 13 画像エンコーダテキストエンコーダ Bird Dog Cat Horse
Human A photo of a {class name}. T1 T2 T3 T4 T5 I A photo of a bird. クラス候補テンプレートで文章化特定のデータに対する学習を行わなずに識別を行う。 Zero-shotな識別プロンプト 0.8 0.3 0.2 0.1 0.05

Locked Image Tuning: 画像側の学習を行わない 14 LiT : Zero-Shot Transfer with
Locked-image text Tuning, CVPR2022 仮説: ある程度強い学習済みの画像モデルがあれば、画像側の学習必要ないのでは？ Image Encoder 事前学習なし Text Encoder 1. どちらもFull Scratch: CLIP Image Encoder 事前学習済み Text Encoder 2. 画像側 Unlock Image Encoder 事前学習済み Text Encoder 3. 画像側をLock

15 画像側Lock 画像側Unlock スクラッチ画像側Lock 画像側Unlock スクラッチ画像側の学習しなくても良さそう。 4Bのペアデータセットに対する結果 Locked
Image Tuning: 画像側の学習を行わない LiT : Zero-Shot Transfer with Locked-image text Tuning, CVPR2022 15Mペアでの学習学習イテレーション ✓ VLLMに使う場合にも、Freezeする場合は多い。 ✓ 事前学習に使ったデータと評価データによる。

16 AlexNet 爆誕 ! 2021 2012 2023 2024-2025 CLIPからLVLMまで ⚫
CLIPは識別はできるが、生成には不向き ⚫ CLIPにはできないタスクを解く動き ⚫ 言語モデルの要素が色濃くなる！

CLIP以後の流れ • CLIPはVLタスクへの比重は大きくはなかった • VLタスクを解くながれ – ALBEF [Li et al.,
2021], BLIP [Li et al., 2022], by Salesforce – CoCa [Yu et al., 2022] by Google 17 https://visualqa.org/ Visual Question Answer (VQA) Image Captioning A man surfing in sunny day

言語モデルとVLタスクへの改善 18

19 言語モデルと画像モデルの接続言語モデル (Transformer) 画像エンコーダ ⚫ 言語モデルに画像を理解してもらう必要がある。 ⚫ どんな言語モデル、学習を行うのか？
出力

Masked Language Modeling と Causal Language Modeling 20 Transformer [s]
a <mask> sleeping in bed dog Masked Language Modeling (MLM) ⚫ ランダムにトークンを<mask>トークンに置き換える ⚫ 置き換えた場所のトークンを正しく予測 [s] a dog sleeping in bed

a <mask> sleeping in bed dog Masked Language Modeling (MLM) ⚫ ランダムにトークンを<mask>トークンに置き換える ⚫ 置き換えた場所のトークンを正しく予測 Transformer [s] Causal Language Modeling (CLM) (推論時) ⚫ ある時点までのトークンは与えられる ⚫ 次のトークンを予測する ⚫ 推論は1トークンずつ ⚫ Decoderとも呼ぶ a [s] a dog sleeping in bed

a <mask> sleeping in bed dog Masked Language Modeling (MLM) ⚫ ランダムにトークンを<mask>トークンに置き換える ⚫ 置き換えた場所のトークンを正しく予測 Transformer [s] a a dog ⚫ ある時点までのトークンは与えられる ⚫ 次のトークンを予測する ⚫ 推論は1トークンずつ ⚫ Decoderとも呼ぶ Causal Language Modeling (CLM) (推論時) [s] a dog sleeping in bed

a <mask> sleeping in bed dog Masked Language Modeling (MLM) ⚫ ランダムにトークンを<mask>トークンに置き換える ⚫ 置き換えた場所のトークンを正しく予測 Transformer [s] a dog a dog sleeping ⚫ ある時点までのトークンは与えられる ⚫ 次のトークンを予測する ⚫ 推論は1トークンずつ ⚫ Decoderとも呼ぶ Causal Language Modeling (CLM) (推論時) [s] a dog sleeping in bed

Masked Language Modeling と Causal Language Modeling 24 [s] a
<mask> sleeping in bed dog Masked Language Modeling (MLM) ⚫ ランダムにトークンを<mask>トークンに置き換える ⚫ 置き換えた場所のトークンを正しく予測 [s] a dog sleeping in bed Causal Language Modeling (CLM) (学習時) sleeping bed ⚫ 1個1個生成されるのを待つと遅い ⚫ 学習時には、GTのトークン列で一気に学習 ⚫ Attentionでどのトークンが見えるか管理 Transformer a dog sleeping in bed [e] Transformer Teacher Forcing Ground-truthのトークン列を使う [s] a dog sleeping in bed

Masked Language Modeling と Causal Language Modeling 25 [s] a
<mask> sleeping in bed dog Masked Language Modeling (MLM) ⚫ ランダムにトークンを<mask>トークンに置き換える ⚫ 置き換えた場所のトークンを正しく予測 [s] a dog sleeping in bed sleeping bed Attention Maskを操作することで、どのトークンを見るか制御している Causal Language Modeling (CLM) (学習時) ⚫ 1個1個生成されるのを待つと遅い ⚫ 学習時には、GTのトークン列で一気に学習 ⚫ Attentionでどのトークンが見えるか管理

画像を言語モデルに理解させるには？ 26 Transformer [s] a <mask> sleeping in bed dog
Masked Language Modeling (MLM) Transformer [s] a dog sleeping in bed Causal Language Modeling (CLM) ⚫ 文を画像から生成できる？ ⚫ ある時点までのトークン+ 画像特徴を見る。 ⚫ 生成タスクに使われる ⚫ Captioning loss a dog sleeping in bed [e] ⚫ 画像から情報を補完できる？ [s] a dog sleeping in bed

画像の情報をどう与えるのか 27 Transformer 画像エンコーダ a dog sleeping a dog
ClipCap: CLIP Prefix for Image Captioning, Mokady et al., arxiv 2021 ⚫ 画像を言語トークンと同じ次元に変換。(MLPなど) ⚫ 言語トークンと同様にTransformerに入力。 ⚫ 現在最も広く使われているであろう方法。シンプル Connector

画像の情報をどう与えるのか 28 画像エンコーダ [s] a dog K V Q
X Cross-Attention (Transformer内) Updated embedding ⚫ 言語側のTransformer内で条件付する ⚫ ALBEF等で使われている。 ⚫ LLMとの組み合わせではあまり使われない印象

29 ALBEF: VLタスクに焦点をおいたモデル Align before Fuse: Vision and Language Representation
Learning with Momentum Distillation Li et al., Neurips 2021 • 多様なVLタスクに使えるようなEncoderを学習した – Image-Text contrastive loss (ITC) – Masked Language Modeling (MLM) – Image-Text Matching (ITM) • ペアに対して1 • 非ペアに対して0 Image Encoder Text Encoder Multimodal Encoder A dog sleeping in a bed ITC MLM ITM 言語モデルのObjectiveを入れることで、 VLタスクでの精度向上を図った。

ダウンストリームタスクに適合する方法 30 ⚫ VQAやImage2Text Retrieval等のVLタスクに対して評価。 ⚫ ダウンストリームタスクに対してDecoder (CLM) を学習する必要があり。 Image
Encoder Text Encoder Multimodal Encoder A dog sleeping in a bed 学習したモジュール

ALBEFの評価 31 ⚫ Image-Text Contrastive Learning (ITC)がないと性能が低い。 ⚫ 多くの損失やモジュールが精度を支えている。

CoCa: Captioning + Contrastive Learning 32 ⚫ Data: 1.8B Image-Text
Pair + JFT-3B classification ⚫ Contrastive loss + Captioning loss CoCa: Contrastive Captioners are Image-Text Foundation Models, Yu et al., 2022 +9.8 Caption lossでVQAが大きく向上

CoCa: Captioning + Contrastive Learning 33 ⚫ CLIPを大きく上回る識別精度 ⚫ 様々なVLタスクにおける精度向上

Contrastive Lossは必須なのか？ • Contrastive Loss無しでは、画像特徴が良くない!という意見が多かったが… • Captioning Lossのみでも、良い特徴が獲得できる場合があると示した 34 Image
Captioners Are Scalable Vision Learners Too, Tschannen et al., Neurips2023

Contrastive Lossは必須なのか？ 35 ⚫ Cap: Captioning lossのみで学習したモデル ⚫ CapPa: 入力全てMaskしたMLM
+ Captioning loss

なぜCapPaが良い？ 36 • 画像情報により依存した予測をしてほしいため • 文頭は画像情報が必要だが、あとになるほど、画像を見なくても推測できてしまう Transformer [s] a
dog sleeping in bed 犬が寝てるのは、ソファーとかベッドとかだろ。えいや！

なぜCapPaが良い？ 37 • 画像情報により依存した予測をしてほしいため • 文頭は画像情報が必要だが、あとになるほど、画像を見なくても推測できてしまう Transformer bed ベッドで寝てる犬が入力だから、
bedかな…?

38 ⚫ Cap: Captioning lossのみで学習したモデルもCLIPと同等の性能を示している。 ⚫ CapPaは更に良い。

39 ⚫ Cap: Captioning lossのみで学習したモデルもCLIPと同等の性能を示している。 ⚫ CapPaは更に良い。

40 ⚫ モデルのサイズを大きく、データサイズを大きくするとCapPaが良くなる傾向 ⚫ 逆に言うと、↑の条件が満たされていない場合は、Contrastive Lossが必須なのかも

BLIP: データをどうカサ増しするか 41 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language
Understanding and Generation, [Li et al., 2022] • Webから収集した画像は説明文がノイジー • 人がアノテーションしたデータは少ないノイズが少ない大量のデータを得たい

BLIP: データをどうカサ増しするか 42 人手で付与した画像説明文データセット Webから収集画像説明文データセット説明文生成
モデル事前学習 1. 事前学習 A dog sleeping in a bed A dog sleeping 類似度出力モデル 0.8

BLIP: データをどうカサ増しするか 43 説明文生成モデル Web画像 2. 説明文付与 ⚫ 大量のWeb画像と説明文のペアが生成される
生成説明文画像+ 生成説明文

BLIP: データをどうカサ増しするか 44 3. データフィルタリング、データセット作成類似度出力モデル画像+ 生成説明文 Webから収集画像＋説明文
類似度出力モデルフィルタ済み画像説明文 ⚫ 出力された類似度の高いものだけをキープ ⚫ 説明文にノイズの多いものを除去する。

45 ⚫ カサ増し＋Filteringを行うことで、精度向上が確認できている。 ⚫ データのスケールが大きくなっても、精度向上が確認できる。データをカサ増し+Filteringの効果

LLMとの接続 46

LVLM時代に突入 47 AlexNet 爆誕 ! 2021 2012 2023 ⚫ LLMと接続させる。
⚫ シンプルにCaption lossで学習するのが一番良さそう ⚫ 生成したデータを使うのは有効 2024-2025

Instruction Tuningとは 48 Self-supervised Training Instruction Tuning Task-specific tuning (Optional)
• ラベルなしDocumentで学習 • 人手で作ったQAデータ • 多様なタスクを統合する学習 • Zero-shotで高い汎化性能を持つ • 人手で作ったQAデータ • 単一のタスクで学習

Instruction Tuningとは 49 FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS, Wei
et al., ICLR2022 ⚫ 従来は、異なるQAタスクに対して別々にチューニングしていたが, ⚫ Instructionと言われるテンプレートを用いて、様々なタスクを統一的に扱って学習

LVLM時代に突入 50 BLIP-2 [Li et.al., 2023] • LLMと接続する手法が提案される (BLIP-2, LLaVA)
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models, Li et al., 2023 ✓ Connector: 画像を説明できるようなトークンを得る ✓ Two stage学習: Connectorの学習 -> 全体(or一部)のチューニングが一般的

LLMを使うメリットはどこにあるのか？ 51 • LLMの持つ言語能力を継承できる。 – 画像を言語として理解できれば、強いはず。 Zero-shotなVQAの例 ✓ BLIP-2は画像説明文のデータでのみ学習している ✓
画像を言語として理解できている一例

LLaVA • 構造: MLPで画像特徴量を変換 • 画像説明文: 595K + Instruction-Tuning: 158K
• Two-stage 学習: Connector -> LLMを含めたチューニング 52 Visual Instruction Tuning, Liu et al., Neurips2023

✓ Instruction-tuningにより、会話能力向上

54 ⚫ データの拡張 ⚫ デザインの良し悪しを再評価 ⚫ 評価方法の検討 AlexNet 爆誕 !
2021 2012 2023 2024-2025

その後のモデルは？ • データを増やす、高品質にする – 詳細で間違いの少ない説明文 55 ShareGPT4V: Improving Large Multi-Modal
Models with Better Captions, Chen et al., ECCV2024 GPT-4Vで生成

どうして詳細だと良いのか？ 56 LLM 画像エンコーダ質問文 • ここに画像のあらゆる情報がLLMに解釈可能な形で格納されている • LLMが強い
 ２つが満たされれば、どんな質問にも答えられるはず！ • 画像情報を言語的に理解してもらうには、リッチな教師情報が必要

57 その後のモデルは？ • 画像特徴量をリッチにする – 複数のImage Encoder – 画像解像度を大きく by
Qwen, InternVL2 Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs, Tong et al., CVPR2024 CLIP + DINOの特徴量を組み合わせる！ https://internvl.github.io/blog/2024-07-02-InternVL-2.0/ 画像の入力を高解像に

どう評価するのか 58 https://mmmu-benchmark.github.io/ • 多様なドメイン＋タスクで評価を試みる – Reasoning + Knowledge MMMU

それぞれのデザインを再評価する試み 59 Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal
LLMs, Tong et al., Neurips2024

✓ Connectorを最初に学習することは大事。より多くのデータを使ってconnectorを学習させるのも大事。 ✓ Vision Modelを再学習させるのも大事。 ✓ Language supervisedなモデルCLIP, SigLiPが多くのタスクで良い。
✓ 高解像度なEncoder, Conv-baseモデルがOCR, Chart, Vision Centricで良い。 ✓ 複数のEncoderを組み合わせると強くなる。 60

61 AlexNet 爆誕 ! 2021 2012 CLIP 大量の画像とテキストペアを使ったモデル
2023 LVLM LLMとの接続 LLAVA, BLIP LVLM 群雄割拠の時代基盤モデルの変遷 2024-2025

まとめ • CLIPから現在のLVLMに至るまで • 多様なObjective, デザイン • 現在のLVLM – アーキテクチャ
– 学習方法 – はFixされつつある • 改善のためのベンチーマークや手法が提案され続ける 62

CVIM 2025/03 チュートリアル 画像認識における基盤モデル

CVIM 2025/03 チュートリアル 画像認識における基盤モデル

More Decks by ksaito

Featured

Transcript

CVIM 2025/03 チュートリアル画像認識における基盤モデル

CVIM 2025/03 チュートリアル画像認識における基盤モデル