• 利点:既存にある大量のキャプションデータが利 用可能 • 欠点:質問・回答の多様性に欠ける、深い推論を 必要としない • LLMと同様に、多様な指示文に対し望ましい回 答をするよう学習 • 多様な質問文に対して適切な回答を集めたデー タセットが必要 • 欠点:データセットの構築に労力がかかる →自動化してる場合もある キャプション A group of people standing outside of a black vehicle with various luggage. … BBox person: [0.681, 0.242, 0.774, 0.694], … LLaVA※1 ※1 Liu et al., NeurIPS 2024 Step1 事前学習 Step2 インストラク ション チューニング トレンド 学習方法の改良 データの多様化 3段階目にRLHFによる 学習を実施するなど、学 習方法の改良が進められ る キャプションデータだけで なく、OCRや領域認識用 のデータなど、使用される データが多様化している 13