[Li+, ICML23] 視覚と言語のアライメントに焦点を当てたQ-Formerを提案 例: GPT-4o 対象物体画像 配置目標画像 2枚の画像を混同して記述 存在しない物体の記述 “take the lamp next to the tree stump and place it on the table beside the dining chairs”
table and place it on the chair in the room” “move the white curtain on the bed to the brown shelf in the living room” 付与文: 対象物体画像 配置目標画像 “take the white lamp on the desk near the bed, then move it to the white desk near the black chair” 提案手法: BLIP-2 : →存在しない白いカーテン・茶色の棚の記述
table and place it on the chair in the room” “move the white curtain on the bed to the brown shelf in the living room” 付与文: 対象物体画像 配置目標画像 “take the white lamp on the desk near the bed, then move it to the white desk near the black chair” 提案手法: BLIP-2 : →存在しない白いカーテン・茶色の棚の記述
the sofa to the shelf above the kitchen” BLIP-2: “move the white curtain on the left side of the window to the white shelf on the right side of the window” 付与文: “move the red object on the sofa to the cupboard at the corner” 対象物体画像 配置目標画像