Human A photo of a {class name}. T1 T2 T3 T4 T5 I A photo of a bird. クラス 候補 類似度 テンプレートで ⽂章化 特定のデータに対する学習を⾏わない中で、識別を⾏う。 -> Zero-shotな識別 プロンプト 0.8 0.3 0.2 0.1 0.05
MULTI-MODAL TASKS Unified-IO ・あらゆる出⼒に対応 ・ほぼタスク固有のヘッドを使⽤ VisionLLM VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks ・LLMを使⽤したPix2Seq ・物体検出を⾃⼰回帰ではなく、識別タスクとみなす
A airplane flying over the shiny clouds Beautiful purple flower is centered ü 多様な画像のドメイン ü 多様な語彙 ü Fine-grainedなクラス ü ラベル分布が均⼀ ⾔語 エンコーダー 画像 エンコーダー Prefix Conditioning Unifies Language and Label Supervision, CVPR2023
the shiny clouds . Two brown puppies are playing on the grass. Beautiful purple flower centered on the image. Classification (識別) データセット A close-up of a persian cat A photo of a redbone A picture of american robin 損失 (Contrastive Loss)
the shiny clouds . Two brown puppies are playing on the grass. Beautiful purple flower centered on the image. Classification (識別) データセット A close-up of a persian cat A photo of a redbone A picture of american robin Two brown grass a airplane clouds beautiful purple image … … … a photo redbone a close-up cat a picture robin … … … Tokenize Tokenize 損失 (Contrastive Loss)
the shiny clouds . Two brown puppies are playing on the grass. Beautiful purple flower centered on the image. Classification (識別) データセット A close-up of a persian cat A photo of a redbone A picture of american robin <説明⽂> Two brown grass a airplane clouds beautiful purple image … … … <識別> <識別> <識別> a photo redbone a close-up cat a picture robin … … … Tokenize Tokenize Prompt Prompt <説明⽂> <説明⽂> 損失 (Contrastive Loss)
the shiny clouds . Two brown puppies are playing on the grass. Beautiful purple flower centered on the image. Classification (識別) データセット A close-up of a persian cat A photo of a redbone A picture of american robin <説明⽂> Two brown grass a airplane clouds beautiful purple image … … … <識別> <識別> <識別> a photo redbone a close-up cat a picture robin … … … Tokenize Tokenize Prompt Prompt <説明⽂> <説明⽂> 損失 (Contrastive Loss) ・効率よく知識統合できる! ・推論時にスイッチングできる︕