報告されている発⾒・知⾒ n 画像を伴う指⽰学習を⾏うと,テキストに関する指⽰追従能⼒が低下する [Shiono+, NAACL’24 SRW], [Zhang+, arXiv’24] n 指⽰学習で扱うタスク数がゼロショット性能に⼤きく寄与する [Tanaka+, AAAI’24] n 画像の解像度とLLMに何を使うかが性能に最も影響する [McKinzie+, arXiv’24], [Laurençon+, arxiv’24] n テキストデータで指⽰学習を⾏ったLLMを使うかどうかで,画像理解タスクの性能に影響が 出ない [Karamcheti+, ICML’24] n 画像エンコーダにおいても,モデルサイズとデータ量が重要 [Li+, blog’24] n 事前学習タスクが異なる複数の画像特徴を同時⼊⼒することで,性能向上 [Tong+, CVPR’24] Zhang+, Wings: Learning Multimodal LLMs without Text-only Forgetting, arXiv’24 Shiono+, Instruction-Following Evaluation for Large Vision-Language Models, NAACL’24 SRW McKinzie+, MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training, arXiv’24 Laurençon+, What matters when building vision-language models?, arXiv’24 Karamcheti +, Investigating the Design Space of Visually-Conditioned Language Models, ICML’24 Li+, LLaVA-NeXT: What Else Influences Visual Instruction Tuning Beyond Data?, blog’24 Tong+, Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs, CVPR’24