巨⼤⾔語モデルで⾏われていた⾃⼰教師あり学習をマルチモーダルなデータについて⾏う研究が増加 • OpenAIによるCLIP[Radford et al., 2021]などの登場により、テキストと画像の類似度が測れ るだけでなく、画像からテキストの⽣成によるZero-shot Learningも可能に • MetaによるData2vec [Baevski et al. 2022]は⾔語・⾳声・画像を同じ枠組みで学習させられ る⾃⼰教師あり学習⼿法 CLIP: Connecting Text and Images [Radford et al., 2021] Data2vec: The first high-performance self-supervised algorithm that works for speech, vision, and text (Baevski et