◂ An old man swimming... -> An old man [MASK]... ◂ 10%...randomなtokenにreplace ◂ An old man swimming... -> An old man old ◂ 10%...not replace ◂ my cat is cute -> my cat is cute ◂ 周辺のtokensから変換前のtokenを予測させて(穴埋め問題を解か せて)image|textの相互作用と言語表現を獲得 55
にreplace ◂ face hand arm leg -> face hand arm [MASK] ◂ 10%...not replace ◂ face hand arm leg -> face hand arm leg ◂ 周辺のtokensからMASKされたObject labelを当てて画像コンテ ンツの言語表現を獲得 56 Faster R-CNNの正解カテゴリ [MASK]の周辺tokensから得られた Transformerの出力ベクトル