のタスク ① Captioning Model A herd of zebras grazing with a rainbow behind. Stefanini et al. “ From show to tell: A survey on deep learning-based image captioning ” TPAMI 2022 をもとに作成
LSTM • MS COCOデータセットの40万件近いキャプション データで学習 → 既存の非ニューラル手法を圧倒する性能 18 深層学習時代のキャプション生成:Show and Tell Vinyals et al. “ Show and Tell: A Neural Image Caption Generator ” CVPR 2015. エンコーダー デコーダー
of a building with a blue umbrella on it 強化学習手法のキャプション: a blue boat is sitting on the side of a building 36 強化学習の応用例:Self-critical Sequence Training Rennie et al. “ Self-critical Sequence Training for Image Captioning ” CVPR 2017.
が 6%向上 38 画像エンコーダーの工夫:検出モデルでの特徴抽出 Question: What room are they in? Answer: kitchen Anderson et al. “ Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering ” CVPR 2018.
• 1画像につき5個程度のキャプション • 画像:約8万件,キャプション:約40万件 • キャプション生成関連のあらゆる研究で使われる デファクトスタンダード的なデータセット 45 MSCOCO Lin et al. “ Microsoft COCO: Common Objects in Context ” ECCV 2014.
v1はアノテーションバイアスが大きかった(例:Is there~系への回答がyesになりがち) → v2ではバイアスを減らす工夫が行われている 47 VQA Agrawal et al. “ VQA: Visual Question Answering ” ICCV 2015. Goyal et al., “Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering”, CVPR 2017.
Schuhmann et al. "LAION-5B: An open large-scale dataset for training next generation image-text models." NeurIPS 2022 (Dataset Track). Schuhmann et al. “LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs” NeurIPS Workshop 2021.
• エンコーダー・デコーダーの両方を学習 54 事前学習モデルの構造 The hope <MASK> rings … Transformer Encoder Transformer Decoder The hope bell rings … The hope bell rings … the field bears fruit The hope <MASK> rings … the field bears <MASK> Transformer Encoder Transformer Decoder The hope bell rings … … the field bears fruit エンコーダーonly デコーダーonly エンコーダー・デコーダー
Causal Language Modeling (CLM) … 前の単語列から,次の単語を予測する • 主にデコーダーonlyモデルで採用される 55 事前学習モデルの学習 Language Model the hope bell rings, the field bears fruit the hope <MASK> rings, the field bears <MASK> the hope bell rings, the field bears Language Model the hope bell rings, the field bears fruit MLM CLM
… | the | hope | bell | rings | , | the | field bears | fruits | … Radford et al. “Improving Language Understandingby Generative Pre-Training.” 2018. Radford et al. "Language Models are Unsupervised Multitask Learners." 2019. Brown et al., “Language Models are Few-Shot Learners” NeurIPS 2020.
Transformer A young man with banana Self-Attention Transformer A young man with banana Self-Attention Transformer Cross-Attention Transformer Single-stream Two-stream
• LLaMAに対して追加でinstruction tuningを行ったモデル • 対話系タスクでの性能が向上,応答の自然さが強み • Gemma • Googleのモデル • これもweightやコードが公開されているため,最近の注目株 71 代表的な(オープンな)LLM Touvron et al., "LLaMA: Open and Efficient Foundation Language Models." arXiv 2023. Touvron et al., “Llama 2: Open Foundation and Fine-Tuned Chat Models.” arXiv 2023. Chiang et al., “Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90% ChatGPT Quality.” at https://lmsys.org/blog/2023-03-30-vicuna/ Gemma Team, “Gemma: Open Models Based on Gemini Research and Technology.” arXiv 2024.
画像エンコーダーとLLMはフリーズ,アダプターのみ訓練 • アダプターによる画像特徴量とテキスト特徴量をAlignmentを学習 76 大規模 V&Lモデルの訓練①:事前訓練 Image Encoder Adapter LLM A dog is sitting next to the teddy-bear. Please describe this image.
…)を用いることが多い • この段階では,画像とテキストの対応関係をざっくり学習できればよい • 質より量が重要 77 大規模 V&Lモデルの訓練①:事前訓練 Image Encoder Adapter LLM A dog is sitting next to the teddy-bear. Please describe this image.
画像エンコーダーはフリーズ,アダプターとLLMを訓練 • Instructionに応じたテキスト生成を学習 78 大規模 V&Lモデルの訓練②:Instruction Tuning Image Encoder Adapter LLM A dog is sitting next to the teddy-bear. Please describe this image.
• なるべく品質もよいものを使いたい → MS COCOなど,高品質なデータに指示文を追加して使用 • 近年では,GPTなどにInstructionデータを自動生成させて学習に用いることも • 利用規約的にはグレーゾーン(GPTの出力を競合モデルの開発に用いることは禁止) 79 大規模 V&Lモデルの訓練②:Instruction Tuning 指示文の例(MultiInstruct) VQA:Answer the question <QUESTION> based on the content of the given image Grounded Captioning:Given the region <REGION> in the image, generate a caption for that region Xu et al. "MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning." ACL 2023.
Stage 2(LLMも含めた訓練):LLMのテキスト生成損失で訓練.ただしBLIPではLLM自体は訓練しない 82 大規模 V&Lモデル:BLIP-2 Li et al. "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models." ICML 2023.
分散学習:モデルパラレル(Pipeline Parallel) https://colossalai.org/docs/concepts/paradigms_of_parallelism Huang et al., “GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism.” NeurIPS 2019.
• SRAM:キャッシュメモリ.高速だが低容量 • v1:なるべくHGMへのアクセスを減らすことで 高速化を実現 • v2:GPUに最適化された実装・並列化などにより v1と比べて2倍程度高速化 97 大規模モデルの推論:Transformerの高速化 Dao et al., “FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness.” NeurIPS 2022. Dao. “FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning.” ICLR 2024. https://huggingface.co/docs/text-generation-inference/conceptual/flash_attention
It </p><box><loc44><loc863></box> seats next to <p> a campfire </p><box><loc4><loc1007></box> </s> • 領域座標は,32×32 = 1024のグリッドで表現し,<loc左上座標><loc右下座標> の形で表現 103 領域指示への対応:KOSMOS-2 Peng et al., “Grounding Multimodal Large Language Models to the World.” ICLR 2024.
can you tell what type of shop is in the image? GPT-4V: The shop in the image is a café or coffee shop. LLaVA: No, I cannot determine the type of shop in the image based on the advertisement board. The advertisement board is located near the sidewalk, but it does not provide enough information to identify the specific type of shop. GT. yoga practice https://huggingface.co/blog/visheratin/vlm-resolution-curse
• MobileLLaMA, TinyLLaMA • LLaMA2のダウンサイジング版(1B~2B程度) • Phi-1, 2, 3 • Microsoftが開発している軽量なLLM (2B程度) • 学習データの品質を高めることで,小さなモデルでも高性能を達成 113 学習・推論の効率化 Zhang et al., “TinyLlama: An Open-Source Small Language Model.” arXiv 2024. Gunasekar et al., “Textbooks Are All You Need.” arXiv 2023. Abdin et al., “Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone.” arXiv 2024.
convolutionを用いた構造 • ストライドを2に設定し,出力トークン数を1/4に削減 • LDPv2 • Depthwise convolutionを一部廃し, Average Poolingに置き換え 114 学習・推論の効率化:MobileVLM v1, v2 Chu et al., “MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices.” arXiv 2023. Chu et al., “MobileVLM V2: Faster and Stronger Baseline for Vision Language Model.” arXiv 2024. LDP(v1) LDP(v2)
5] • アダプターの構造はさほど影響がない [3] • V&Lデータだけでなく,テキストonlyデータも使って学習するとよい [3] • 画像エンコーダーのfine-tuneは不要 [4] • (パラメータ数が同等の場合)言語モデルの性能も大きくは影響しない? [4] • パラメータ数が同等でも,性能の高い言語モデルを使うべきという説も [2] • パラメータ数が大きい言語モデルの方が最終的な性能がよい [1] • 言語モデルだけでなく,画像モデルのパラメータ数も増やしたほうがよい [5] 115 その他の知見 [1] Lu et al., “DeepSeek-VL: Towards Real-World Vision-Language Understanding.” arXiv 2024. [2] Laurençon et al., “What matters when building vision-language models?” arXiv 2024. [3] McKinzie et al., “MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training.” arXiv 2024. [4] Karamcheti et al., “Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models.” ICML 2024. [5] Chen et al., “How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites.” arXiv 2024.