Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Vision and Languageと分野を取り巻く深層学習手法の紹介

Vision and Languageと分野を取り巻く深層学習手法の紹介

2021.05.21 NL/CVIM/PRMU合同研究会で行ったチュートリアル講演の資料です。

Seitaro Shinagawa

May 21, 2021
Tweet

More Decks by Seitaro Shinagawa

Other Decks in Technology

Transcript

  1. 品川 政太朗(しながわ せいたろう)と申します 1989年 札幌にて誕生 2013年 東北大学工学部卒業 2015年 東北大学大学院博士前期課程修了 2015年

    奈良先端大 知能コミュニケーション研究 室で博士後期課程 2020年 同研究室研究員を経て11月から助教 専門:画像生成、対話システム 博論:A Conversational System for Interactive Image Editing (自然言語を用いた対話型画像編集システム) 興味:Vision&Language、コミュニケーション支援 2/97
  2. 今回の発表について • Vision&Languageにはどのような取り組み・課題があるか • 深層学習はどのように使われてきているか • 特に両モダリティの統合と変換に焦点を当てます • 評価指標の話は重要ですが、今回は省きました 1.

    Vision&Languageはどんな分野なのか? 2. Vision&Languageの主要な深層学習モデル 3. 学習済みモデルを応用する話 4. 今後はTransformerからMLPへ? 5. 言語生成タスクにおける強化学習の利用 6. さいごに もくじ 4/97
  3. 例えば? Image captioning Visual Question Answering (VQA) Embodied Question Answering

    (EQA) Text-to-image generation [Xu+, 2018] [Das+, 2018] [Vinyals+,2015] [Agrawal+, 2016] 自然言語を入力とした物体操作 [Bisk+, 2016] 7/97
  4. 言語処理側から見るモチベーション 画像も考慮することで、新しいアプリケーションにアプローチできる 機械翻訳 要約 質問応答 対話 情報検索 画像文脈 + =

    multi-(cross-)modal machine translation multi-(cross-)modal summarization visual question answering visual dialog multi-(cross-)modal information retrieval 画像付きの記事要約[Zhu+, 2018] 画像も適切なものを選択して出力 Web上は画像とテキストであふれて いるから、画像もうまく利用したい 10/97
  5. 画像処理側から見るモチベーション シーン認識 自然言語 出力 image-captioning 自然言語 入力 物体検出 領域分割 画像生成

    画像編集 referring expression text-guided semantic segmentation text-to-image text-guided image editing 自然言語インターフェースは人間にとって都合が良い • 膨大なデータをまとめるのは人間には大変→システムが要約して説明する • ツールを使うのは素人には大変→(音声)言語で入力したい + = + = 11/97
  6. Vision&Languageはいつごろ登場した? Vision&Languageという分野名は、深層学習の普及に伴って呼ばれるように • 2015年からサーベイ論文が登場 [Ferraro+, 2015] [Kafle+, 2019] [Mogadala+, 2020]

    ただ、深層学習以前にも、画像と言語を扱う研究には古い歴史がある [Okada, COLING1980] [Hiyoshi, COLING1994] 手描きの絵から説明文を生成 自然言語とキーボード、マウス入力 を組合わせてイラストを描画 [Winograd, 1972] 自然言語による物体操作 と画像付き質問応答 12/97
  7. Vision&Lanagueの難しさ②:データセットのバイアス 画像と言語の2つのモダリティがあるため、それぞれでバイアスが生じ得る VQAデータセットはバランスに問題があった [Goyal+, 2017] • ”What sport is…”という質問に対して”tennis”で41%正答できる •

    ”How many…”という質問に対して”2”で39%正答できる • “Do you see…”という質問に対して”yes”で87%正答できる →complementなサンプルを加えることで、画像を見ないと正答できないように した [Agarwal+, 2020]では、人間が67.12%の割合でVisual Dialogを対話履歴な しで正答できると報告 • より難しくした評価セットのVisDialConvを提案 15/97
  8. Vision and Language研究の近年の動向 Transformerベースの大規模パラメータ、大規模データセット学習手法が台頭 ViLBERT VisualBER T VL-BERT LXMERT ERNIE-

    ViL OSCAR UNITER 事前学習デー タセット VG, CC VG, COCO VG, CC text-only data VG, COCO VG, COCO, SBU VG, COCO, CC, SBU, GQA,flicker30k VG,COCO, CC,SBU 評価データセッ ト VQA VQA,VCR, NLVR2,Flic ker30k VQA,VCR, Ref VQA, GQA, NLVR VQA,VCR, RefCOCO, retrieval retrieval, IC, VQA, GQA, NLVR2 VQA,VCR,N LVR2,retriev al,他 モデルサイズ large? base base, large base, large base, large base, large 事前学習の計 算時間 8 TitanX >4 Tesla V100 250k steps,16 Tesla V100 GPUs 10日 4 Titan Xp 700k steps, 8 V100 GPUs 1M steps, 900k steps 882, 2685 V100 GPU 時間 パフォーマンス VG: Visual Genome (Faster R-CNN訓練用) , CC: Conceptual Captions 3.3M, SBU: SBU Captions 0.8M 17/97
  9. Vision&Languageでは画像と言語をどう結び付けるか? 画像 言語 共通の潜在空間 画像 言語 潜在空間 画像→言語 潜在空間 言語→画像

    Vision&Languageでは特に、両モダリティの統合と変換をうまくやる必要がある 深層学習ベースだと、次の二種類を覚えておくと役に立つ 双方向タイプ 一方通行タイプ 20/97
  10. 黎明期からの双方向タイプ 画像 言語 共通の潜在空間 双方向タイプは、深層学習黎明期(2013年くらい)からのアプローチ Visual semantic embeddings [Frome+, 2013]

    [Kiros+, 2014] [Faghri+, 2017] [Wu+, 2019] ①画像情報と言語情報をそれぞれ符号化 ②ペアと偽ペアを用意 ③triplet loss(下記)で最適化 言語情報は、扱う単位が増えてきている模様 • 物体ラベル[Frome+, 2013] • テキストに含まれる単語[Kiros+, 2014] • フレーズや文単位[Wu+, 2019] [Wu+, 2019] 21/97
  11. 近年の有名な双方向タイプ 画像 言語 共通の潜在空間 BERTは、V&Lタスクでシェアを占めてきている双方向タイプのモデル Bidirectional Encoder Representation from Transformers

    (BERT) [Devlin+,2019] 共通の潜在表現を学習させるのは難しいタスクだった(一方 のモダリティに過学習しやすい)が、この印象が覆された エンコーダだけなので、色々なタスクに利用することができる 点も魅力? V&Lの事前学習の特徴 • 物体の矩形のmasking(Masked region modeling) • 画像とテキストのマッチングを二値分類するimage-text matching prediction 22/97
  12. 一方通行タイプの特徴 画像 言語 潜在空間 画像→言語 潜在空間 言語→画像 共通の潜在空間をあきらめることで、色々と利点が出てくる 画像から言語、言語から画像のネットワーク を別々に学習してからでも学習できる

    一方のモダリティがもう一方のモダリティの データ拡張として働く Turbo learning[Huang+,2018] Multimodal Chain [Effendi+,2021] 画像がペアになってなくても学習できる 𝐼 𝐼 𝐼𝑔𝑒𝑛 𝑇 𝑇 𝑇𝑔𝑒𝑛 ※画像→テキスト→画像では微分可能に する必要がある(Gumbel softmaxなど) 𝑙𝑜𝑠𝑠 = 𝛼ℒ 𝐼, 𝐼𝑔𝑒𝑛 + 𝛽ℒ 𝑇, 𝑇𝑔𝑒𝑛 23/97
  13. どのような深層学習モデルが使われているか? おおまかに分けると・・・ Recurrent Neural Networks (RNNs) • LSTM • GRU

    Transformers • Seq2seq transformers • BERT Convolutional Neural Networks (CNNs) • Faster R-CNN (Visual Genomeで) • ResNet50, 152 Transformers • Vision Transformer (ViT) • CLIP Vision Language Multi-Layer Perceptron (MLP; Fully-connected Layers (FC)) Variational Auto Encoders (VAEs) Generative Adversarial Networks (GANs) 24/97
  14. Transformer以前のモデルの悩み 言語データは時系列:Recurrent Neural Network (RNN)で処理していた 私 は 人間 RNN 𝑥0

    embedding RNN 𝑥1 embedding RNN 𝑥2 embedding ℎ0 ℎ1 ℎ2 ℎ0 ℎ1 前の隠れ層ℎ𝑡−1 が入力なので逐次処理に時間がかかる 26/97
  15. Transformerの登場 Self-attentionという構造で時系列データを一挙に並列処理できるように 私 は 人間 RNN 𝑥0 embedding RNN 𝑥1

    embedding RNN 𝑥2 embedding ℎ0 ℎ1 ℎ2 ℎ0 ℎ1 学習の高速化により大規模データでの学習が可能に →自然言語処理分野での大規模学習時代の到来 Transformer block 27/97
  16. ビジョン分野でのSelf-attentionの適用事例 Self-Attention Generative Adversarial Networks [H. Zhang+, ICML2019] • GANによる画像生成にSelf-attentionを適用した例

    • 点が示す領域をクエリとしたとき、画像のどの領域が強く対応し ているかを可視化 • 各クエリ点が近くの領域や遠くの領域を見ていることがわかる 30/97
  17. Transformerブロックの中身 Transformerブロックを構成している要素 1. Multi-head attention (次元分割型Self-attention) 2. 残差接続(Residual connection) 3.

    Layer Normalizationによる正規化 4. Position-wise feed forward networks 5. DropOut Multi-head attention Norm Feed forward Norm + + ※左図は標準的に使われることの多いPre-norm型 33/97
  18. Multi-head attention 次元分割型Self-attention(Multi-head attention) Self-attentionの内積はベクトルの各要素にわたって大域的な類似度 高次元にすると、 次元ごとの小さな特徴が無視されやすい attention map •

    小さなベクトルに切り分け計算 • トークン間の多様な類似性を 発見 できる • 多様性を上げる損失関数を加えると 性能向上[J. Li+, EMNLP2018], [P.Y. Huang+, EMNLP2019] 34/97
  19. Layer normalization 入力系列をトークンごとに正規化する操作 Layernorm Layernorm Layernorm Layernorm 嬉しい特徴 Large batch訓練がbatch

    accumulationで安心してできる ※batch normalizationだと統計量が変わってしまう 36/97
  20. DropOut Transformerでは3種類のDropOutがある • positional encoding後の入力embedding • 残差接続&Layernormの直前 • attention計算時のattention map

    訓練時に、ある層の入力(出力)を確率的に0にすることで 汎化性能を上げる工夫 37/97
  21. Sinusoidal型の気持ちは時計型embedding? from:https://github.com/jalammar/jalammar.github.io/blob/master/notebookes/transformer/transformer_positional_encoding_graph.ipynb sin 𝑤0 𝑡 , cos 𝑤0 𝑡 長針

    周期短い 短針 周期長い sin 𝑤𝑛 𝑡 , cos 𝑤𝑛 𝑡 ⋯ sinとcosの組を時計の針とみると、位置𝑡は時刻で𝑤𝑖 は針の動く速さ 次元を2nとすると、sinとcosはn組→n個の針がある時計 “私” “は” “元気” “です” “。” 40/97
  22. Transformerをどのように学習させるか? 大きく分けて2種類のタイプがある • 【Seq2seq】 Attention is all you need [Vaswani+,

    2017] • 【BERT】 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [Devlin+, 2019] 41/97
  23. Seq2Seqのforward計算の特徴 • 時系列を時々刻々と順番に予測していく(自己回帰型) • 訓練時に未来の系列がリークしないようにAttention mapにマスクする(−∞ で置き換える)工夫が必要 −∞ −∞ −∞

    −∞ −∞ −∞ 「私 は 元気 です」をデコーダで出力するように学習する場合 私 は 元気 です Query Key 「私」に対応するQueryは、未来 の情報である「は」「元気」「です」 のKeyを考慮しない 44/97
  24. V&L用のモデルへの設定 textのみのBERT • Masked Language Modeling • Next sentence prediction

    • Segment embedding of sentence pair V&LのBERT • Masked Language Modeling +Masked region modeling • Image-text matching • Segment embedding of image-text pair (ないことも多い) • 画像はVisual Genome datasetで訓 練したFaster R-CNNを利用し、物体 の矩形ごとに整形してトークンとする (Seq2seqもあるが、主流ではない) 49/97
  25. 𝑄𝑡 V&L特有の仕組み:1-stream型と2-stream型 1-streamは画像とテキストをまとめて入力 2-streamはソース・ターゲット型のattention 𝑣0 𝑣1 Multi-head attention 𝑣𝑉 𝑡0

    𝑡1 𝑡𝑇 token-to-Q,K,V token-to-Q,K,V ⋯ ⋯ 𝑉𝑡 𝐾𝑡 𝑄𝑡 𝑉𝑡 𝐾𝑡 𝑄𝑡 𝑇 × 𝐻 vectors V × 𝐻 vectors 𝑉𝑡 𝐾𝑡 𝑄𝑡 𝑉𝑡 𝐾𝑡 𝑄𝑡 𝑉 + 𝑇 × 𝐻 vectors visual tokens textual tokens Multi-head attention Multi-head attention 𝑉𝑡 𝐾𝑡 𝑉𝑡 𝐾𝑡 𝑄𝑡 1-stream (single-stream) 2-stream (co-attention) 51/97
  26. 余談:Seq2seq系の手法について UniT: Multimodal Multitask Learning with a Unified Transformer [Hu+,

    2021] Faster R-CNNではなく、Vision Transformerのようにパッチベースで画像の特 徴量抽出を行い、Transformerですべて完結させるアプローチ モデルは超巨大:“batch size of 64 on 64 Nvidia Volta V100- SXM2-32GB GPUs (batch size 1 per GPU)" The Dialogue Dodecathlon [Shuster+, 2020] 複数の対話データセット(画像付きも含む)で訓練することで、zero- shot能力を示すことが報告された Zero-Shot Text-to-Image Generation [Ramesh+, 2021] テキストから画像を生成するGPT-3ベースのネットワーク。DALL-Eという名前 がついている(後述) 53/97
  27. CLIPを汎用的な識別器として、生成画像をテキストに合わせて 制御する手法が続々登場 Paint by word [Bau+, 2021] https://arxiv.org/abs/2103.10951 CLIP-Guided Generative

    Latent Space Search [Galatolo+, 2021] https://arxiv.org/abs/2102.01645 入力となる目標テキストに対して、進化的アルゴリズムでCLIP の類似度スコアを最大化するよう画像の潜在変数を最適化 57/97
  28. 今後はTransformerからMLPへ? MLP-Mixer[Tolstikhin+,2021] 実はMLPでもTranformer並みの性能を出せたという報告が続々登場 5/4 MLP-Mixer [Tolstikhin+,2021] 5/6 Do You Even

    Need Attention? [Melas-Kyriazi,2021] 5/7 ResMLP [Touvron+,2021] 5/17 Pay Attention to MLPs [Liu+,2021] 方法はシンプルで共通 転置してMLPに通す トークン間の相互作用 をとらえられる 60/97
  29. Vision, Language taskでTransformerの性能を上回る報告 gMLP (Pay Attention to MLPs [Liu+,2021])はTransformerベースに接近 Vision:

    画像認識(ImageNetで訓練・評価) Language: C4(後述)で事前訓練、質問応答(SQuAD)、Sentimentの二値 分類(SST-2)、自然言語理解(MNLI)でそれぞれfine-tuningして評価 ViT型での比較 BERT型での比較 61/97
  30. gMLPは系列方向の関係性を捉えてgatingしている点が特徴 𝑊 𝑛 𝑛 𝑔𝑓 = 𝑓𝑊,𝑏 𝑍 = 𝑊𝑍

    + 𝑏 SGU 𝑍 = 𝑍 ⊙ 𝑔𝑓 𝑍 𝑑𝑧 𝑔𝑓 +b = 𝑛 𝑑𝑧 𝑔𝑓 input embeddings 𝑑𝑧 𝑛 𝑓𝑊,𝑏 𝑍 ⊙ 𝑍 Spatial Gating Unit (SGU) ? • 𝑊の各スライスが、embeddingのベクトルの各 要素に対して系列方向のフィルタとして作用する • 例えば、上のような重み𝑊のスライスは、ベクト ルの最初の要素の真ん中の系列に大きな重み →空間方向の関係性を捉えられる 62/97
  31. 入力をsplitすると性能がさらに向上する 𝑔𝑓 = 𝑓𝑊,𝑏 𝑍2 = 𝑊𝑍2 + 𝑏 SGU

    𝑍 = 𝑍1 ⊙ 𝑔𝑓 𝑔𝑓 input embeddings 𝑑𝑧 2 𝑛 𝑓𝑊,𝑏 𝑍2 ⊙ 𝑍1 , 𝑍2 Spatial Gating Unit (SGU) 𝑑𝑧 2 BERT baseと同規模のパラメータでより低い perplexityを達成 63/97
  32. 言語生成タスクとは? 文脈情報に沿って文を生成するタスクを指す 文脈情報 生成するテキスト タスク 英語の文 日本語の文 英日翻訳 画像 画像の説明文

    画像説明文生成 発話文 応答文 対話応答生成 言語デコーダ 文脈情報 “机の上にあるのはペンです” 67/97
  33. 言語生成ではfine-tuningに強化学習を使うことが増えてきている image-captioningで強化学習を使っている事例 by [Mogadala+, 2020] “ ” image-captioningの論文[Pan+, 2020]では 「reinforcement」の文字すら既にない

    • Self-Critical Attention [Rennie+, 2017] • Policy Gradient [Liu+, 2017] • Up-Down [Anderson+, 2018] • Multi-task Captioning [Zhao+, 2018] • Stack Captioning [Gu+, 2018] OpenAIによるGPT-3+強化学習 fine-tuningの論文 [Ziegler+, 2019] [Stiennon+, 2020] (報酬は人間からのフィードバック) 68/97
  34. 言語デコーダの学習方式:Teacher forcing 与えられた参照文を教師として時刻ごとに次の時刻のトークンを学習 入力は1時刻ずらした参照文で固定 DNN 文頭記号 < 𝑠 > 文末記号

    </𝑠 > 文脈情報 DNN This DNN is This This is a DNN a pen DNN pen 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 ⋯ ⋯ ⋯ ⋯ ⋯ 参照文 次のトークンの 予測確率分布 𝑝 𝑤𝑡 |ℎ𝑡−1 , 𝑤𝑡−1 70/97
  35. シンプルな方策勾配法(REINFORCE)による強化学習 REINFORCEの手順は大きく分けて3ステップ There is a girl by the table .

    A man stands on the floor . A man is standing by a dog . 方策 𝜋 𝑦𝑡 |𝑠𝑡 ①方策(言語デコーダ)による文生成 ②報酬関数(or報酬モデル) による評価 報酬関数 𝑅 生成文 , 参照文 0.1 0.8 0.6 報酬スコア ③報酬スコアによる重みづけによる再学習 𝑙𝑜𝑠𝑠 = − 1 𝑇 ෍ 𝑡=1 𝑇 0.8 ⋅ 𝑦𝑡 ⋅ log 𝜋 𝑦𝑡 |𝑠𝑡 73/97
  36. REINFORCEの手順①:方策(言語デコーダ)による文生成 文脈情報 (隠れ層、エン コーダ出力など) 方策 𝜋 𝑦𝑡 |𝑠𝑡 文脈情報から系列をサンプリングする (サンプリング方法:random,

    greedy (top-1), top-k, beam search, top-pなど) 𝑦1 𝑦0 方策 𝜋 𝑦𝑡 |𝑠𝑡 𝑦2 𝑦1 方策 𝜋 𝑦𝑡 |𝑠𝑡 < 𝑒𝑜𝑠 > 𝑦𝑡−1 ⋯ ⋯ 𝑠1 𝑠2 𝑠𝑡 State 𝑠:文脈情報と入力トークンで定義 Action 𝑦:次のトークンの選択(語彙サイズの大きさ!(数万~数十万)) 74/97
  37. REINFORCEの手順③:報酬スコアによる重みづけによる再学習 生成した文章を教師文として、評価値を損失の重みにして方策を再学習 ෤ 𝑦1 . ⋯ 𝑦𝑇 < 𝑠𝑜𝑠 >

    A man is standing by a dog . < 𝑒𝑜𝑠 > < 𝑠𝑜𝑠 > man ෤ 𝑦2 ෤ 𝑦3 A A dog man is man ෤ 𝑦𝑇−1 < 𝑒𝑜𝑠 > 教師 予測 トークン 0.8 生成文 入力 𝑙𝑜𝑠𝑠 = − 1 𝑇 ෍ 𝑡=1 𝑇 0.8 ⋅ 𝑦𝑡 ⋅ log 𝜋(𝑦𝑡 |𝑠𝑡 ) 報酬𝑅 生成文, 参照文 1文の各トークンの重みは 同じ重み(文単位の報酬) loss backprop ※理論的背景は方策勾配定理を参照 76/97
  38. 注意点①:REINFORCEは方策勾配∇𝜃 log 𝜋𝜃 の分散が大きい ∇𝜃 𝑙𝑜𝑠𝑠 = −𝔼෠ 𝑌~𝜋𝜃 ෍

    𝑡=1 𝑇෡ 𝑌 ∇𝜃 log 𝜋𝜃 𝑦𝑡 |𝑠𝑡 ⋅ 𝑅 ෠ 𝑌, 𝑌 − 𝑏 𝑠 対策:ベースライン関数𝑏 𝑠 で勾配を低減できる ෡ Y:生成文 Y:参照文 ※理論的背景は Control variateを参照 REINFORCE ミニバッチ平均報酬 Self-critic [Rennie+, CVPR2017] 𝑏 𝑠 = 1 𝑁 ෍ 𝑖=1 𝑁 𝑅 ෡ 𝑌𝑖 , 𝑌𝑖 • mini-batchごとの平均報酬 • 一般的な方法 𝑏 𝑠 = 1 𝑁 ෍ 𝑖=1 𝑁 𝑅 ෠ 𝑌 𝑔𝑟𝑒𝑒𝑑𝑦,𝑖 , 𝑌𝑖 • greedy (top-1) で生成した 系列による報酬を利用 • 平均報酬より良い傾向 • image-captioningでメジャー よく用いられるベースライン関数𝑏 𝑠 77/97
  39. OpenAIの言語生成ではPPOを利用して方策勾配を制御 ベースライン付きREINFORCE 𝑙𝑜𝑠𝑠 = −𝔼෠ 𝑌~𝜋𝜃 ෍ 𝑡=1 𝑇 log

    𝜋𝜃 𝑦𝑡 |𝑠𝑡 𝐴 𝑠𝑡 , 𝑦 Proximal Policy Optimization (PPO) [Schulman+,2017] ただし、𝐴 𝑠𝑡 , 𝑦 = 𝑅 ෠ 𝑌, 𝑌 − 𝑏 𝑠 (報酬は時刻ごとに一定とみなす) 𝑙𝑜𝑠𝑠 = −𝔼෠ 𝑌~𝜋𝑜𝑙𝑑 min ෍ 𝑡=1 𝑇 𝜋𝜃 𝑦𝑡 |𝑠𝑡 𝜋𝑜𝑙𝑑 𝑦𝑡 |𝑠𝑡 𝐴 𝑠𝑡 , 𝑦 , 𝑐𝑙𝑖𝑝 𝜋𝜃 𝑦𝑡 |𝑠𝑡 𝜋𝑜𝑙𝑑 𝑦𝑡 |𝑠𝑡 , 1 − 𝜖, 1 + 𝜖 𝐴 𝑠𝑡 , 𝑦 𝜋𝜃 :更新対象の方策 𝜋𝑜𝑙𝑑 :固定した古い方策 方策の比についてクリッピングを行うことで モデルが激しく更新されないよう方策勾配 を制御できる 78/97
  40. おススメのコード https://github.com/ruotianluo/self-critical.pytorch 非公式ですが、Self-criticのImage captioningをLSTMベース、Transformerベースでそれ ぞれ実験できます。自分でモデルを組むのに参考になるかも Learning to Summarize from Human

    Feedback [Stiennon+, 2020] https://github.com/openai/summarize-from-feedback OpenAIが公開している、人間のラベル選択で学習した報酬モデルによる言語生成モデル のfine-tuning手法です。対象としているのが要約タスクですが、広く一般に使える手法です。 80/97
  41. これからのVision and Language、どう生き残るか? 不都合な真実:現在の主流は、大規模モデル・大規模データのパワー勝負 「これから何をやっていけばいいのか」と聞かれたとしたらどう答えるか・・・? 個人的な意見: ◼ 新しい問題設定・評価指標の提案 • 音声情報などのマルチモーダルへの拡張

    • 書き言葉でなく、話し言葉を想定した問題設定 • 対話的な方向性なら、エラーからの回復など ◼ 既存の学習済みモデルの分析と応用 • 何ができないか、どうしたらできるようになるか ◼ 実用性を重視した、適度な制約・ルールの導入 • まず動くものを作ることができれば、データを収集できる 82/97
  42. 実問題における対話性の必要性 Visual Dialog [Das+, 2017] 人間:現在の家の状況を聞きたい エージェント:人間が何に関心があるかわか らない 現在見えている状況についてどれだけ話す (captioningする)べきか?

    たくさん話すと冗長かもしれない・・・ 人間同士だったら、大まかに報告しておいて、 興味のある事項を聞いてから答えるようにす れば効率が良い→対話の問題設定になる 「猫がマグカップで水を飲んでます」 人間「何色のマグ?」 「赤と白ですね」 人間「それ私のマグやんけ・・・」 83/97
  43. 深層学習ベースで解かれる問題設定の多くが、協調的な問題 解決のプロセスを未だ避けているという指摘もある Grounding as a Collaborative Process [Benotti+, 2021] 画像中の物体当てタスク(Guesswhat?!

    [de Vries+,2017]) V&Lに限らず、決められた手順に従って最終的に正答したかどうかだけで評価する風潮 現実は失敗したままで終わられては困る。エラーから回復する仕組みがこれから重要? 84/97
  44. 例えば、text-to-imageの場合 “this bird has a very long neck and brown

    body and facing left and body is under water” Text-to-imageのモデルで生成した結果 “this bird has yellow beak and is facing left and long brown neck and black body most of which is under the water” “test” どう入力したらどういう出力が返ってくるか、人間にはよくわからない 何時間も使ってみてようやくコツがわかってくる(これは望ましいといえる?) →エラーから回復する仕組みが現状存在しない 85/97
  45. ちなみに、専門ワークショップが日本で毎年開催されている International Workshop on Symbolic-Neural Learning (SNL) 2017年 第一回:名古屋 2018年

    第二回:名古屋 2019年 第三回:東京 2020年 コロナでキャンセル スコープ • Image caption generation and visual question answering • Speech and natural language interactions in robotics • Machine translation • General knowledge question answering • Reading comprehension • Textual entailment • Dialogue systems この領域に興味がある方にはとてもおススメです (私は聴講でしか参加したことないですが・・・) 88/97
  46. 【宣伝】vision and language jp slack • Vision&Languageの話題を扱う交流用のslackコミュニティ • 動機:Vision&Languageの学生が孤立しがちな問題をなんとかして,分野を 盛り上げたい

    • 現在の登録者数176名 (完全に思い付きで始めましたが) たくさんの方が集まってくださいましたm(_ _)m • 現在活躍中のVision&Languageの研究者の方 • Vision&Languageに興味のある{CV, NLP}の方 • これから研究を始めようとしている学生の方 など 89/97
  47. ぜひvision and language jp slackをご活用ください ※Slackへの登録は品川までご連絡ください。 • Vision&Language研究は画像と自然言語両方を扱うので、広範囲にわたる知識が必要 • 分野はどちらかに偏っている研究室が多く、

    Vision&Languageの学生は孤立しがち 例えばこういうことに使えます! • 論文の調査についての相談(例:こういう研究需要ある?、こういう研究ってやられてないの?) • 研究に関係する相談(例:先行研究の再現がうまくいかない、こういう研究ってどの会議に出すべき?) • 実装に関係する相談(例:こういうツールが欲しいのだけど、何かいい実装はないか?) • 技術交流(例:実装会や、強化学習でimage-captioningのclosedなコンペを行う) • CVの研究室とNLPの研究室で共同研究など 全国どこからでも、Vision&Languageを始めましょう! 90/97
  48. 参考文献 P.7 [Vinyals+,2015] Oriol Vinyals, Alexander Toshev, Samy Bengio, and

    Dumitru Erhan. Show and tell: A neural image caption generator. CVPR 2015. [Agrawal+, 2016] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick, and Devi Parikh. VQA: visual question answering. ICCV2015. [Das+, 2018] Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh, Dhruv Batra. Embodied Question Answering. CVPR2018. [Xu+, 2018] Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He. AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks. CVPR2018. [Bisk+, 2016] Yonatan Bisk, Deniz Yuret, Daniel Marcu. Natural Language Communication with Robots. NAACL2016. P.8 [Wang+, 2019] Yujia Wang, Wenguan Wang, Wei Liang, Lap-Fai Yu. Comic-Guided Speech Synthesis. SIGGRAPH Asia2019. [Bojanowski+, 2015] Piotr Bojanowski, Rémi Lajugie, Edouard Grave, Francis Bach, Ivan Laptev, Jean Ponce, Cordelia Schmid. Weakly-Supervised Alignment of Video With Text. ICCV2015. [Li+, 2017] Shuang Li, Tong Xiao, Hongsheng Li, Bolei Zhou, Dayu Yue, Xiaogang Wang. Person Search with Natural Language Description. CVPR2017. 91/97
  49. 参考文献 P.10 [Zhu+2018] Zhu, J., Li, H., Liu, T., Zhou,

    Y., Zhang, J., & Zong, C. MSMO: Multimodal Summarization with Multimodal Output.EMNLP2018, 4154–4164. P.12 [Ferraro+, 2015] Francis Ferraro, Nasrin Mostafazadeh, Ting-Hao (Kenneth) Huang, Lucy Vanderwende, Jacob Devlin, Michel Galley, Margaret Mitchell. A Survey of Current Datasets for Vision and Language Research. EMNLP2015. [Kafle+, 2019] Kushal Kafle, Robik Shrestha, Christopher Kanan. Challenges and Prospects in Vision and Language Research. ArXiv2019. [Mogadala+, 2020] Aditya Mogadala, Marimuthu Kalimuthu, Dietrich Klakow. Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods. ArXiv2020. [Winograd, 1972] Terry Winograd. Understanding natural language. Cognitive psychology, 3(1):1-191, 1972. [Okada, 1980] Naoyuki Okada. Conceptual taxonomy of Japanese verbs for understanding natural language and picture patterns. COLING1980. [Hiyoshi+, 1994] Mayumi Hiyoshi and Hideo Shimazu. Drawing pictures with natural language and direct manipulation. COLING1994. 92/97
  50. 参考文献 P.15 [Goyal+, 2017] Yash Goyal, Tejas Khot, Douglas Summers-Stay,

    Dhruv Batra, Devi Parikh. Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. CVPR2017. [Agarwal+, 2020] Shubham Agarwal, Trung Bui, Joon-Young Lee, Ioannis Konstas, Verena Rieser. History for Visual Dialog: Do we really need it? ACL2020. P.16 [Yi+, 2018] Yi, K., Wu, J., Gan, C., Torralba, A., Kohli, P., & Tenenbaum, J. B. Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding. NeurIPS2018. P.21 [Frome+,2013] Frome, A., Corrado, G. S., Shlens, J., Dean, S. B. J., Ranzato, M. ’aurelio, & Mikolov, T. (n.d.). DeViSE: A deep visual-semantic embedding model. NIPS2013. [Kiros+,2014] Kiros, Ryan, Ruslan Salakhutdinov, and Richard S. Zemel. "Unifying visual-semantic embeddings with multimodal neural language models." NIPS2014 workshop. [Faghri+,2017] Faghri, F., Fleet, D. J., Kiros, J. R., & Fidler, S. VSE++: Improving visual-semantic embeddings with hard negatives. BMVC2017 [Wu+, 2019] Wu, H., Mao, J., Zhang, Y., Jiang, Y., Li, L., Sun, W., & Ma, W.-Y. (2019, June). Unified visual-semantic embeddings: Bridging vision and language with structured meaning representations. CVPR2019. 93/97
  51. 参考文献 P.22 [Devlin+,2019] Devlin, J., Chang, M.-W., Lee, K., &

    Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL2019. Volume 1, 4171–4186. P.23 [Huang+,2018] Huang, Q., & Zhang, P. (n.d.). Turbo learning for caption bot and drawing bot. NeurIPS2018 [Efendi+, 2021] Effendi, J., Tjandra, A., Sakti, S., & Nakamura, S. (2021). Multimodal Chain: Cross-Modal Collaboration Through Listening, Speaking, and Visualizing. IEEE Access, 9, 70286–70299. P.30 [H. Zhang+, 2018] Zhang, Han, et al. “Self-Attention Generative Adversarial Networks.” ICML2019. P.38 [M. Geva+,2021] Geva, Mor, et al. “Transformer Feed-Forward Layers Are Key-Value Memories.” arXiv2020. P.39, P.40 [A. Vaswani+, 2017] Vaswani, Ashish et al. “Attention is All you Need.” NIPS2017. P.41 [Devlin+,2019] Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL2019. Volume 1, 4171–4186. 94/97
  52. 参考文献 P.48 [Weijie+, 2020] Weijie, et al. "Vl-bert: Pre-training of

    generic visual-linguistic representations.“ ICLR2020. P.50 [Chen+, 2020] Chen, Yen-Chun, et al. "Uniter: Universal image-text representation learning." ECCV2020. P.52 [Shin+, 2021] Shin, Andrew, Masato Ishii, and Takuya Narihira. "Perspectives and Prospects on Transformer Architecture for Cross-Modal Tasks with Language and Vision." arXiv2021. P.53 [Hu+, 2021] Hu, R., & Singh, A. UniT: Multimodal Multitask Learning with a Unified Transformer. arXiv2021. [K. Shuster+, 2020] Shuster, Kurt, et al. "The dialogue dodecathlon: Open-domain knowledge and image grounded conversational agents." ACL2020. [A. Ramesh+, 2021] Ramesh, Aditya, et al. "Zero-shot text-to-image generation." arXiv2021. P.55 [R. Rombach+, 2020] Rombach, Robin, Patrick Esser, and Bjorn Ommer. "Network-to-Network Translation with Conditional Invertible Neural Networks.“ NeurIPS2020. 95/97
  53. 参考文献 P.56 [Radford+, 2021] Radford, Alec, et al. "Learning transferable

    visual models from natural language supervision." arXiv2021. P. 57 [Bau+, 2021] Bau, David, et al. "Paint by Word.“ arXiv2021. [Galatolo+, 2021] Galatolo, Federico A., Mario GCA Cimino, and Gigliola Vaglini. "Generating images from caption and vice versa via CLIP-Guided Generative Latent Space Search." arXiv2021. P.58 [A. Ramesh+, 2021] Ramesh, Aditya, et al. "Zero-shot text-to-image generation." arXiv2021. P.60 [Tolstikhin+, 2021] Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, and Alexey Dosovitskiy. Mlp-mixer: An all- mlp architecture for vision. arXiv2021. [Melas-Kyriazi+, 2021] Luke Melas-Kyriazi. Do you even need attention? a stack of feed-forward layers does surprisingly well on imagenet. arXiv2021. [Touvron+, 2021] Hugo Touvron, Piotr Bojanowski, Mathilde Caron, Matthieu Cord, Alaaeldin El-Nouby, Edouard Grave, Armand Joulin, Gabriel Synnaeve, Jakob Verbeek, and Hervé Jégou. Resmlp: Feedforward networks for image classification with data-efficient training. arXiv2021. [Liu+, 2021] Liu, H., Dai, Z., So, D. R., & Le, Q. V. (2021). Pay Attention to MLPs. arXiv2021. 96/97
  54. 参考文献 P.68 [Pan+, 2020] Pan, Y., Yao, T., Li, Y.,

    & Mei, T. X-linear attention networks for image captioning. CVPR2020 [Ziegler+, 2019] Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., & Irving, G. Fine-Tuning Language Models from Human Preferences. arXiv. http://arxiv.org/abs/1909.08593 [Stiennon+, 2020] Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., & Christiano, P. Learning to summarize from human feedback. NeurIPS2020. P.72 [Benjio+,2015] Samy Bengio, Oriol Vinyals, Navdeep Jaitly, and Noam Shazeer. 2015. Scheduled sampling for sequence prediction with recurrent Neural networks. NIPS2015. MIT Press, Cambridge, MA, USA, 1171–1179. P.78 [Schulman+,2017] Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. Proximal Policy Optimization Algorithms. arXiv2017. P.79 [Choshen+, ICLR2020] Choshen, L., Fox, L., Aizenbud, Z., & Abend, O. (2019). On the Weaknesses of Reinforcement Learning for Neural Machine Translation. ICLR2020. P.84 [Benotti+,2021] Benotti, L., & Blackburn, P. Grounding as a Collaborative Process. EACL2021. 515–531. P.86 [Nguyen+, 2019] Khanh Nguyen, Hal Daumé III. Help, Anna! Visual Navigation with Natural Multimodal Assistance via Retrospective Curiosity-Encouraging Imitation Learning. EMNLP2019. 97/97