Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CVIM 2025/03 チュートリアル 画像認識における基盤モデル

Avatar for ksaito ksaito
March 19, 2025
660

CVIM 2025/03 チュートリアル 画像認識における基盤モデル

CVIM2025 3月の研究会でのチュートリアル発表資料 by Kuniaki Saito

Avatar for ksaito

ksaito

March 19, 2025
Tweet

Transcript

  1. 2 画像認識における基盤モデル(VL-Model)とは • 入力画像に対し言語で様々な入出力を表現できるモデル – 言語モデルの発展 – 様々なタスクを言語タスクで表現可能 segmentation dog

    (x0 =250, y0 =320), (x1 =251, y1 =320), . . dog (xmin ,ymin ) = (240, 280), (xmax ,ymax )= (300, 350), object detection image classification dog image captioning A dog running on a grass VQA Q. What is the dog doing? A. running
  2. 4 AlexNet 爆誕 ! 2021 2012 CLIP 大量の 画像とテキストペアを 使ったモデル

    2023 LVLM, MLLM (Large Vision Language Model) (Multimodal Large Language Model) LLMとの接続 LLAVA, BLIP 2024-2025 LVLM 群雄割拠の時代 基盤モデルの変遷 1. CLIP 2. CLIPの改善 3. LLMとの接続
  3. CLIP 6 物体 検出 説明文 生成 猫と犬が2匹ずつ ピンクの背景の前にいます。 識別 猫、犬

    基盤モデル 猫と犬が2匹ずつ ピンクの背景の前にいます。 猫、犬 2021 2012 CLIP以前 CLIP以後
  4. 学習データセット • Common Crawlの<alt text>のテキストと対応する画像 • 400Mのペア • ドメインが多様 •

    多分LAIONデータ(CLIP論文に明確にそうとは書いてない) 7 https://laion.ai/blog/laion-400-open-dataset/
  5. 8 Unified Contrastive Learning in Image-Text-Label Space, CVPR2022 画像 エンコーダ

    テキスト エンコーダ オレンジと灰色の鳥 共通空間 Objective ペアの類似度を上げたい。 非ペアは類似度を下げたい。 目的:ペアが近くに配置されるような埋込を学習 説明文(キャプション)
  6. 識別タスクへの応用 13 画像 エンコーダ テキスト エンコーダ Bird Dog Cat Horse

    Human A photo of a {class name}. T1 T2 T3 T4 T5 I A photo of a bird. クラス 候補 テンプレートで 文章化 特定のデータに対する学習を行わなずに識別を行う。 Zero-shotな識別 プロンプト 0.8 0.3 0.2 0.1 0.05
  7. Locked Image Tuning: 画像側の学習を行わない 14 LiT : Zero-Shot Transfer with

    Locked-image text Tuning, CVPR2022 仮説: ある程度強い学習済みの画像モデルがあれば、画像側の学習必要ないのでは? Image Encoder 事前学習なし Text Encoder 1. どちらもFull Scratch: CLIP Image Encoder 事前学習済み Text Encoder 2. 画像側 Unlock Image Encoder 事前学習済み Text Encoder 3. 画像側をLock
  8. 15 画像側Lock 画像側Unlock スクラッチ 画像側Lock 画像側Unlock スクラッチ 画像側の学習しなくても良さそう。 4Bのペアデータセットに対する結果 Locked

    Image Tuning: 画像側の学習を行わない LiT : Zero-Shot Transfer with Locked-image text Tuning, CVPR2022 15Mペアでの学習 学習イテレーション ✓ VLLMに使う場合にも、Freezeする場合は多い。 ✓ 事前学習に使ったデータと評価データによる。
  9. 16 AlexNet 爆誕 ! 2021 2012 2023 2024-2025 CLIPからLVLMまで ⚫

    CLIPは識別はできるが、生成には不向き ⚫ CLIPにはできないタスクを解く動き ⚫ 言語モデルの要素が色濃くなる!
  10. CLIP以後の流れ • CLIPはVLタスクへの比重は大きくはなかった • VLタスクを解くながれ – ALBEF [Li et al.,

    2021], BLIP [Li et al., 2022], by Salesforce – CoCa [Yu et al., 2022] by Google 17 https://visualqa.org/ Visual Question Answer (VQA) Image Captioning A man surfing in sunny day
  11. Masked Language Modeling と Causal Language Modeling 20 Transformer [s]

    a <mask> sleeping in bed dog Masked Language Modeling (MLM) ⚫ ランダムにトークンを<mask>トークンに置き換える ⚫ 置き換えた場所のトークンを正しく予測 [s] a dog sleeping in bed
  12. Masked Language Modeling と Causal Language Modeling 21 Transformer [s]

    a <mask> sleeping in bed dog Masked Language Modeling (MLM) ⚫ ランダムにトークンを<mask>トークンに置き換える ⚫ 置き換えた場所のトークンを正しく予測 Transformer [s] Causal Language Modeling (CLM) (推論時) ⚫ ある時点までのトークンは与えられる ⚫ 次のトークンを予測する ⚫ 推論は1トークンずつ ⚫ Decoderとも呼ぶ a [s] a dog sleeping in bed
  13. Masked Language Modeling と Causal Language Modeling 22 Transformer [s]

    a <mask> sleeping in bed dog Masked Language Modeling (MLM) ⚫ ランダムにトークンを<mask>トークンに置き換える ⚫ 置き換えた場所のトークンを正しく予測 Transformer [s] a a dog ⚫ ある時点までのトークンは与えられる ⚫ 次のトークンを予測する ⚫ 推論は1トークンずつ ⚫ Decoderとも呼ぶ Causal Language Modeling (CLM) (推論時) [s] a dog sleeping in bed
  14. Masked Language Modeling と Causal Language Modeling 23 Transformer [s]

    a <mask> sleeping in bed dog Masked Language Modeling (MLM) ⚫ ランダムにトークンを<mask>トークンに置き換える ⚫ 置き換えた場所のトークンを正しく予測 Transformer [s] a dog a dog sleeping ⚫ ある時点までのトークンは与えられる ⚫ 次のトークンを予測する ⚫ 推論は1トークンずつ ⚫ Decoderとも呼ぶ Causal Language Modeling (CLM) (推論時) [s] a dog sleeping in bed
  15. Masked Language Modeling と Causal Language Modeling 24 [s] a

    <mask> sleeping in bed dog Masked Language Modeling (MLM) ⚫ ランダムにトークンを<mask>トークンに置き換える ⚫ 置き換えた場所のトークンを正しく予測 [s] a dog sleeping in bed Causal Language Modeling (CLM) (学習時) sleeping bed ⚫ 1個1個生成されるのを待つと遅い ⚫ 学習時には、GTのトークン列で一気に学習 ⚫ Attentionでどのトークンが見えるか管理 Transformer a dog sleeping in bed [e] Transformer Teacher Forcing Ground-truthの トークン列を使う [s] a dog sleeping in bed
  16. Masked Language Modeling と Causal Language Modeling 25 [s] a

    <mask> sleeping in bed dog Masked Language Modeling (MLM) ⚫ ランダムにトークンを<mask>トークンに置き換える ⚫ 置き換えた場所のトークンを正しく予測 [s] a dog sleeping in bed sleeping bed Attention Maskを 操作することで、 どのトークンを見るか 制御している Causal Language Modeling (CLM) (学習時) ⚫ 1個1個生成されるのを待つと遅い ⚫ 学習時には、GTのトークン列で一気に学習 ⚫ Attentionでどのトークンが見えるか管理
  17. 画像を言語モデルに理解させるには? 26 Transformer [s] a <mask> sleeping in bed dog

    Masked Language Modeling (MLM) Transformer [s] a dog sleeping in bed Causal Language Modeling (CLM) ⚫ 文を画像から生成できる? ⚫ ある時点までのトークン+ 画像特徴を見る。 ⚫ 生成タスクに使われる ⚫ Captioning loss a dog sleeping in bed [e] ⚫ 画像から情報を補完できる? [s] a dog sleeping in bed
  18. 画像の情報をどう与えるのか 27 Transformer 画像 エンコーダ a dog sleeping a dog

    ClipCap: CLIP Prefix for Image Captioning, Mokady et al., arxiv 2021 ⚫ 画像を言語トークンと同じ次元に変換。(MLPなど) ⚫ 言語トークンと同様にTransformerに入力。 ⚫ 現在最も広く使われているであろう方法。シンプル Connector
  19. 画像の情報をどう与えるのか 28 画像 エンコーダ [s] a dog K V Q

    X Cross-Attention (Transformer内) Updated embedding ⚫ 言語側のTransformer内で条件付する ⚫ ALBEF等で使われている。 ⚫ LLMとの組み合わせではあまり使われない印象
  20. 29 ALBEF: VLタスクに焦点をおいたモデル Align before Fuse: Vision and Language Representation

    Learning with Momentum Distillation Li et al., Neurips 2021 • 多様なVLタスクに使えるようなEncoderを学習した – Image-Text contrastive loss (ITC) – Masked Language Modeling (MLM) – Image-Text Matching (ITM) • ペアに対して1 • 非ペアに対して0 Image Encoder Text Encoder Multimodal Encoder A dog sleeping in a bed ITC MLM ITM 言語モデルのObjectiveを入れることで、 VLタスクでの精度向上を図った。
  21. CoCa: Captioning + Contrastive Learning 32 ⚫ Data: 1.8B Image-Text

    Pair + JFT-3B classification ⚫ Contrastive loss + Captioning loss CoCa: Contrastive Captioners are Image-Text Foundation Models, Yu et al., 2022 +9.8 Caption lossでVQAが大きく向上
  22. BLIP: データをどうカサ増しするか 41 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language

    Understanding and Generation, [Li et al., 2022] • Webから収集した画像は説明文がノイジー • 人がアノテーションしたデータは少ない ノイズが少ない大量のデータを得たい
  23. BLIP: データをどうカサ増しするか 44 3. データフィルタリング、データセット作成 類似度出力モデル 画像+ 生成説明文 Webから収集 画像+説明文

    類似度出力モデル フィルタ済み 画像説明文 ⚫ 出力された類似度の高いものだけをキープ ⚫ 説明文にノイズの多いものを除去する。
  24. LVLM時代に突入 47 AlexNet 爆誕 ! 2021 2012 2023 ⚫ LLMと接続させる。

    ⚫ シンプルにCaption lossで学習するのが一番良さそう ⚫ 生成したデータを使うのは有効 2024-2025
  25. Instruction Tuningとは 48 Self-supervised Training Instruction Tuning Task-specific tuning (Optional)

    • ラベルなしDocumentで学習 • 人手で作ったQAデータ • 多様なタスクを統合する学習 • Zero-shotで高い汎化性能を持つ • 人手で作ったQAデータ • 単一のタスクで学習
  26. Instruction Tuningとは 49 FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS, Wei

    et al., ICLR2022 ⚫ 従来は、異なるQAタスクに対して別々にチューニングしていたが, ⚫ Instructionと言われるテンプレートを用いて、様々なタスクを統一的に扱って学習
  27. LVLM時代に突入 50 BLIP-2 [Li et.al., 2023] • LLMと接続する手法が提案される (BLIP-2, LLaVA)

    BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models, Li et al., 2023 ✓ Connector: 画像を説明できるようなトークンを得る ✓ Two stage学習: Connectorの学習 -> 全体(or一部)のチューニングが一般的
  28. LLaVA • 構造: MLPで画像特徴量を変換 • 画像説明文: 595K + Instruction-Tuning: 158K

    • Two-stage 学習: Connector -> LLMを含めたチューニング 52 Visual Instruction Tuning, Liu et al., Neurips2023
  29. どうして詳細だと良いのか? 56 LLM 画像 エンコーダ 質問文 • ここに画像のあらゆる情報がLLMに解釈可能な形で格納されている • LLMが強い

     2つが満たされれば、どんな質問にも答えられるはず! • 画像情報を言語的に理解してもらうには、リッチな教師情報が必要
  30. 57 その後のモデルは? • 画像特徴量をリッチにする – 複数のImage Encoder – 画像解像度を大きく by

    Qwen, InternVL2 Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs, Tong et al., CVPR2024 CLIP + DINOの特徴量を組み合わせる! https://internvl.github.io/blog/2024-07-02-InternVL-2.0/ 画像の入力を高解像に
  31. 61 AlexNet 爆誕 ! 2021 2012 CLIP 大量の 画像とテキストペアを 使ったモデル

    2023 LVLM LLMとの接続 LLAVA, BLIP LVLM 群雄割拠の時代 基盤モデルの変遷 2024-2025
  32. まとめ • CLIPから現在のLVLMに至るまで • 多様なObjective, デザイン • 現在のLVLM – アーキテクチャ

    – 学習方法 – はFixされつつある • 改善のためのベンチーマークや手法が提案され続ける 62