Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文読み会 / ImageBERT: Cross-modal Pre-training wit...

chck
February 14, 2020

論文読み会 / ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data

社内論文読み会、PaperFridayでの発表資料です

chck

February 14, 2020
Tweet

More Decks by chck

Other Decks in Research

Transcript

  1. 2 Point: 画像とテキストを両方使うタスクのための強力な事前学習 Annotationコストの低い学習データの収集方法 Authors: Di Qi, Lin Su, Jia

    Song, Edward Cui, Taroon Bharti, Arun Sacheti - Bing Multimedia Team, Microsoft 選定理由: 俺より強いマルチモーダル表現に会いに行く
  2. Vision-Language TaskがNLP界CV界共に人気 ◂ ホントか?CV系会議の方が豪華だから皆そっちに出したがると ACLのPCが嘆いていた ◂ Text-Image Retrieval ◂ Visual

    Question Answering ◂ Visual Commonsense Reasoning ◂ Image Captioning 4 言語と画像で各々事前学習しておいたモデル( e.g. BERT & ResNet)をFusionして更に学習回しがち Fusion後の学習も高コスト( task-specificなデータを用意しないといけないし annotationも大変)
  3. Cross-modal界隈でもTransformerが流行 ◂ Transformerの発明以降、その性能から様々な応用が生まれる ◂ Model architecture ◂ BERT[10]...Transformerベースのつよ言語モデル ◂ 画像と文章それぞれ

    Transformer->出力をTransformerで融合 [14][15] ◂ 画像と文章を1入力にして Transformer [16...21] ◂ 色々出ているがタスク依存なのでモデル構造の優劣比較が難しい 11
  4. Cross-modal界隈でもTransformerが流行 ◂ Image visual tokens ◂ 入力画像を 事前学習した物体検出に通した結果を Tokenとして利用 ◂

    物体検出自体もモデルの学習機構に組み込む [19] ◂ TokenのSequenceが得られるので Transformerに直接入力 できる ◂ Pre-train dataset ◂ 言語データならそこらへんに転がっているが Vision-Languageはそうはいかない ◂ Conceptual Captions[2]...3Mの画像w/説明文. image-textの事前学習によく使われる ◂ UNITERは4つのDataset([2][3][22][5])を混ぜた10Mのデータを学習, 関連タスクでSOTA ◂ LXMERTはVQA用のオリジナルデータを事前学習に使い , VQAタスクでSOTA ◂ 結局データの質と量が一番大事 12
  5. Transformer 16 ◂ Multi-Head Self-AttentionとFeed-forward Networkで 構成される単方向Encoder-Decoderモデル ◂ RNNやCNNを使っていないのでtokenの順番(idx)も入力 ◂

    予測すべきtokenが学習時にリークしないように AttentionにMaskかける機構があったりいろいろ工夫
  6. BERT: Bidirectional Encoder Representations from Transformers ◂ TransformerのEncoder部分を双方向かつ多段に連結させたもの ◂ Transformerで未来の単語のリークを防ぐためにやっていた

    Mask機構を モデル内ではなく学習データにMASK(15%)をかけることで解決 ◂ その代わり収束に時間がかかるが性能は抜群 ◂ 3種類の入力表現を合計して使用 ◂ token埋め込み ◂ 文区別埋め込み ◂ token位置埋め込み 20
  7. Vision-Language Taskの課題 ◂ 大量で高品質な画像・テキストのペアデータが少ない ◂ Conceptual Captions[2] ◂ 3M Images

    w/ descriptions from Web Pages ◂ SBU Captions[3] ◂ 1M Images w/ user-associated captions ◂ 事前学習として知識表現を得るにはまだ不十分 ◂ モデルだけ超大になってきている ◂ 人手によるAnnotationは高品質ながら高コスト 26 そうだWeb Pageがあるじゃないか (Internet上に画像テキストペアデータが転がっている )
  8. 37 3. Sentence Detection & Cleaning 3-1. 画像タグ周囲の text, Alt

    text, OG-descriptionをSentenceとして検出
  9. 42 5. Image-Text Aggregation 5. one image : many descriptionsの場合

    best relevance scoreのみを採用 同じdescriptionの画像が多すぎる場合それも除去
  10. 1-2. Embedding Modeling ◂ 画像特徴 ◂ Faster-RCNNによるRoI表現 ◂ Object DetectionしたBBoxとObject

    Label ◂ Objectの座標を5次元で表現 ◂ Object labelは後述する事前学習で使う 50
  11. 2. Multi-stage Pre-training ◂ Stage 1 ◂ 4 pre-training tasks

    using LAIT dataset ◂ Stage k+2 ◂ 4 pre-training tasks using Public datasets ◂ Stage k+3 ◂ 1 task using target Task Dataset ◂ TaskをImage-Text Matching のみに 53 dataset size Large Small 10M- 1M- 100K-
  12. 3. Pre-training tasks ◂ text|imageとその相互作用をモデリングする4 tasks ◂ 1. Masked Language

    Modeling (MLM) ◂ 2. Masked Object Classification (MOC) ◂ 3. Masked Region Feature Regression (MRFR) ◂ 4. Image-Text Matching (ITM) 54
  13. 3-1. Masked Language Modeling (MLM) ◂ 入力文のtokenの15%を以下3種に変換 ◂ 80%...[MASK] にreplace

    ◂ An old man swimming... -> An old man [MASK]... ◂ 10%...randomなtokenにreplace ◂ An old man swimming... -> An old man old ◂ 10%...not replace ◂ my cat is cute -> my cat is cute ◂ 周辺のtokensから変換前のtokenを予測させて(穴埋め問題を解か せて)image|textの相互作用と言語表現を獲得 55
  14. 3-2. Masked Object Classification (MOC) ◂ Object tokenの15%を以下2種に変換 ◂ 90%...[MASK]

    にreplace ◂ face hand arm leg -> face hand arm [MASK] ◂ 10%...not replace ◂ face hand arm leg -> face hand arm leg ◂ 周辺のtokensからMASKされたObject labelを当てて画像コンテ ンツの言語表現を獲得 56 Faster R-CNNの正解カテゴリ [MASK]の周辺tokensから得られた Transformerの出力ベクトル
  15. 3-3. Masked Region Feature Regression (MRFR) ◂ 周辺のtokensからMASKされたBBoxを当てる ◂ Object

    labelを当てるMOCよりpeakyな 画像と言語のjoint表現を獲得 57 画像のRoI特徴 MaskされたObjectの分散表現
  16. 3-4. Image-Text Matching (ITM) 58 ◂ 画像とテキストの関連度を2値分類 ◂ negative training

    dataを作成 ◂ 各画像から誤り説明文をrandom sampling ◂ 各説明文から誤り画像をrandom sampling ◂ 入力image|textが関連したペアであるかを判断する能力 を獲得
  17. 4. Fine-tuning tasks ◂ 仕上げにMASKなしでMSCOCO, Flickr30kでImage-Text Retrieval Taskを解く ◂ image-to-text

    / text-to-image ◂ 3つの損失関数を試して最高性能のモデルを既存手法と比較 ◂ Multi-class Classification Loss. ◂ 入力に対しその正解ペアの分類確率を正しく予測 ◂ Triplet Loss. ◂ 入力に対しpositive/negativeのペアを距離学習 ◂ Binary Classification Loss. ◂ negative sampleをnegativeと正しく予測 59
  18. Evaluation for the Pre-trained Model 61 Fine-tuningなし(Zero-shot)でPre-trainの性能を評価 MSCOCO...提案手法がSOTA Flicker30k...UNITER>提案手法 ->

    UNITERはPre-trainedでFlickr & MSCOCOに近しいドメインのデータを使ってる この事前学習の結果が Fine-tuningにぐいぐい効いてくる
  19. Evaluation for the Fine-tuned Model ◂ x 62 Fine-tuningまで済ませれば提案手法が圧勝 ->

    段階的な事前学習と LAITデータとcross-modal学習が有効
  20. Conclusion and Future Work ◂ 汎用的なvision-language用Dataの収集方法を公開 ◂ Transformerベースのvision-languageモデルを提案 ◂ MSCOCO,

    Flickr30kのimage/text retrieval taskでSOTA ◂ VQA, VCR, Image Captioningへの適用が今後の課題 ◂ https://arxiv.org/abs/1909.11059 69
  21. Comment ◂ 画像から必要十分な特徴だけNLPのモデルに乗せる心意気 ◂ データ収集の過程で推論モデルが複数あるのでそこの質の担保が難しそう ◂ 質より量を集めてお願いBERTで上手くいくモデルの強さ ◂ 広告画像/テキストでも同じ課題がある ◂

    クリエイティブ特徴表現があれば学習コスト削減 ◂ この枠組みでWeb広告をCrawlingして広告用に事前学習した Vision-Languageモデルを作ってEncoderをLabから提供するとか... 70