画像エンコーダ: ViT-B/32, ResNet等 ▪ テキストエンコーダ: トランスフォーマー等 ▪ 推論: 新規の画像(or テキスト)を入力して特徴量に変換 ▪ 多数の応用(DALL·E 2 [Aditya (OpenAI) + 2022/4]等) a photo of a beer bottle satellite imagery of roundabout a photo of a marimba a meme テキスト エンコーダ 画像 エンコーダ
a wagon and bring me the towel directly across from the sink” Rank: 1 Rank: 2 Rank: 3 Rank: 4 Rank: 5 Rank: 6 … Rank: 1 Rank: 2 Rank: 3 Rank: 4 Rank: 5 Rank: 6 … Instruction: “Go to the hallway on level 1 that is lined with wine bottles and pull out the high chair closest to the wine bottles at the second table from the door”