Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2022.9.7 NAIST DSCサマーセミナー「Vision and Language技術...

2022.9.7 NAIST DSCサマーセミナー「Vision and Language技術の最新動向」

NAIST DSCサマーセミナー2022の発表資料です。
http://www-dsc.naist.jp/dsc_naist/naist-dsc-summer-seminar-2022/

Seitaro Shinagawa

September 09, 2022
Tweet

More Decks by Seitaro Shinagawa

Other Decks in Technology

Transcript

  1. 生息地:Vision and Language+対話 博士課程での研究: 対話的に画像を編集するシステム 科研費(若手):自然言語に紐づいて構 造化された表現に基づく画像生成基盤の 確立 経歴 2013年東北大学工学部卒業

    2015年東北大学大学院博士前期課程修了 2020年奈良先端大博士後期課程修了 同年11月から同大学助教 品川 政太朗(しながわ せいたろう)と申します 2/54
  2. • image-captioning: 目が見えない人の支援、監視中に起きたイベントを報告 • text-to-image, image-editing: 創作の支援、ロボット動作のシミュレーション • vision and

    language navigation: (将来的に)ロボットに汎用的な作業をさせる Vision & Languageはどういう分野? (端的に言えば)画像と言語を組み合わせた問題設定を扱う分野 4/54
  3. 最近はテキストからの画像生成 (text-to-image)が大流行中 引用:https://gigazine.net/news/20220901- midjourney-win-fine-arts-competition/ 拡散モデル(Diffusion model)+大規模データセット訓練で 多様かつ高品質な画像生成ができると話題に Midjourney:絵画系の画像生成が得意 美術品の品評会で1位になるなど衝撃 を与えている

    日本でも多くの技術者・クリエイター の方々が注目中 ねらい通りの画像を生成するための上 手なテキスト入力ノウハウ(呪文)の 探索が進んでいる模様・・・ 引用:https://twitter.com/fladdict/status/1564178679462105088 5/54
  4. Vision & Language、実は古株 • 「Vision & Language」と呼ばれ始めたのは2015年 • 昔は「人工知能」と呼ばれていました [Okada,

    COLING1980] Image-captioningの起源? (手描きの絵から説明文を生成) [Hiyoshi, COLING1994] Move this here. Text-to-imageの起源? (自然言語とキーボード、マウス入力を組合わ せてイラストを描画) 6/54
  5. ただ、そううまくはいかなかった・・・ ぶっちゃけきつかった 最大の原因はスケールしないこと • 環境内の物体の状態、自然言語の理解の仕方をすべてルール で書き下すのは非現実的(知識獲得のボトルネック) • そもそも実世界(画像)と記号(言語)の関係をどう紐づけたら いいのかわからない(記号接地問題) Winograd先生

    Winograd先生もこの「人工知能」研究からはすぐ離れてしまいました 現在のVision & Languageが注目されるポイント: 深層学習を基盤とする、実世界(画像)と記号(言語)を 上手に結び付ける方法論の確立と実証を担っている 8/54
  6. Q. なぜ画像と言語か? A. データが大量に手に入るので深層学習と相性が良い • 747M(7億超)の画像-英語テキスト • 不適切データも含まれるので研究用途の みに使うことを推奨している COYO-700M

    • 400M(4億)の画像-英語テキスト • 多言語版のLAION-5B、美麗なサンプルの みを抽出したLAION-AESTHETICSもある LAION-400M https://github.com/kakaobrain/coyo-dataset https://laion.ai/ 最近の大規模データセットは、CommonCrawlという非営利組織がWeb上から集 めた公開データを整形して作成 ライセンスはCreative Commons、しかし・・・ • 画像はCCのもので絞っているらしいが、完全ではなく著作権にも注意 • 明らかな不適切データも含まれるので注意 9/54
  7. 分野ごとにも注目している焦点に特色が 自然言語処理 コンピュータビジョン (CV) ロボティクス 言語獲得、言語創発 画像説明文生成 テキストからの画像生成 画像付き質問応答 Vision

    and Language Navigation 自然言語による物体操作 ロボット対話 画像理解にはラベルより柔軟 な記号であるテキストを役立 てたいよね 実世界でコミュニケー ションとれるロボット を実現したい 言語理解には画像とか別の情報源 も文脈に使えるといいよね マルチモーダル機械翻訳 Vision and Language Navigation 自然言語による物体操作 10/54
  8. V&L関連技術の歴史年表 2015 2022 画像特徴量 抽出器 画像と言語 の統合 自然言語 処理 Faster

    R-CNN bottom-up attention Transformer, BERT, GPT Vision Transformer V&L pre-trained language models RNN (LSTM, GRU) Memory networks Visual semantic embeddings 画像生成器 VAE, GAN VQ-VAE, dVAE diffusion model Pixel CNN 2018 近年のV&Lの技術も例に漏れずTransformer を基盤として発展している傾向 12/54
  9. 代表的なTransformerモデルは3種類 Transformer Enc Dec 𝐾, 𝑉 Dec Enc Decoderのみモデル (GPT系)

    Encoderのみモデル (BERT、ViT系) Encoder-Decoderモデル もう全部系列として 生成しようぜ Decoderは要らない 分類ができたらいい これが原点 17/54
  10. 各Transformerモデルの特徴 Encoder-Decoder型 (Vanilla Transformer) Decoder-only型 (GPT-1,2,3) Encoder-only型 (BERT, ViT) Enc

    Dec 𝐾, 𝑉 • Encoderの出力がkey, valueとなる 注意機構(ソース・ターゲット注意) • Decoderはトークンを一つずつ予測 (自己回帰モデル) • Decoderはトークンを一つずつ予測 (自己回帰モデル) • 赤トークンから予測すればEncoder- Decoder風にも使える(Prompting) Dec • 先頭のトークンでクラス分類を行う (画像と文のペア識別、画像認識) • 適当にマスクしたトークンの復元課題 を解く(マスク付き言語モデリング) • 自己回帰モデルのような予測も可能 Enc 18/54
  11. dVAE (discrete VAE)の学習方法 1 ⋯ 0 𝑧𝑖𝑗 = Enc 入力

    画像 生成 画像 Dec 潜在変数 𝑧 にGumbel-softmaxを適用して離散化する 𝑧~𝑞𝜙 𝑧 𝑥 ≈ 𝑝 𝑧 32 tokens 0 0 vocabulary size: 8192 𝑧 ∈ ℝ32×32×8192 Gumbel-softmax • VAEは適当な分布𝑝 𝑧 に潜在空間を押し込める正則化を行う • dVAEにおける𝑝 𝑧 は一様カテゴリ分布 ℒ = −𝔼𝑧~𝑞𝜙 𝑧|𝑥 log 𝑝𝜃 𝑥|𝑧 +𝛽𝐷𝐾𝐿 𝑞𝜙 𝑧|𝑥 , 𝑝 𝑧 21/54
  12. Gumbel-softmax 1. Sample 𝑢1 , 𝑢2 , … , 𝑢𝐶

    ~Uniform 0,1 2. 𝑔 = − log − log 𝑢 (ただし, 𝑢 = 𝑢1 , 𝑢2 , … , 𝑢𝐶 ) 3. 𝑧 = softmax log 𝑞𝜙 𝑧|𝑥 +𝑔 𝜏 Gumbel-softmaxは一様カテゴリ分布に対する Reparametrization trick(誤差逆伝播時に計算グラフを保持 する工夫) 22/54
  13. VQ-VAEによる画像埋め込みの離散化 VQ-VAE [Oord+, 2017] VQ-VAEではあらかじめcode bookを利用する点が異なる 1 0 0 𝑒1

    𝑒2 𝑒3 決定論的なサンプリング 𝑧𝑞 𝑥 ~ 𝑞 𝑧|𝑥 = argmin 𝑒 | 𝑧𝑒 𝑥 − 𝑒 | 𝑧𝑒 𝑥 Enc 入力 画像 𝑧𝑞 𝑥 生成 画像 Dec VQ-VAE [Oord+,2017] VQ-VAEとdVAEの違い • サンプリングの違い:VQ-VAEは決定論的、dVAEは確率的 • VQ-VAEでは徐々にではなく、最初から離散化される 24/54
  14. 画像特徴量抽出器の歴史 V&Lの問題を解くには、画像に登場する物体と物体間の関係 性を抽出することが有用(良い物体特徴量抽出器が必要) [Agrawal+, 2016] 例:「Q:口ひげは何でできてる?」 を解くのに必要な情報は? • 物体情報:「人の顔」「バナナ」 •

    関係情報「バナナが口元の位置」 特に、以下の課題解決に力が注がれてきた • 物体特徴量抽出器は処理が遅い • 物体特徴量抽出器が失敗すると後段の処理も失敗する 26/54
  15. 物体特徴量抽出の基礎技術 Faster R-CNN [Ren+,2017] 説明文 image- captioning region feature (固定次元)

    • 処理速度 0.2 秒/枚 • YOLOとかは使われない(比 較するのが面倒だから?) region feature Faster R-CNNとその派生を使うことが多い bounding box (bbox)候補抽出器 (9 type bbox / position) 予測確率が高い領域を採用 領域を固定の次元にpooling 27/54
  16. 第一進化形態:Bottom-up attention Bottom-up attention [Anderson+,2018] • VQA Challenge 2017優勝手法 •

    2018-2020頃のデファクト Faster R-CNNからの差分 • 物体の属性情報も予測するタス クを追加した • 例:"green" grass • 属性情報も付随している Visual Genome (VG) dataset を利用 28/54
  17. 第二進化形態:back to the grid feature 「下流タスク(VQA)を学習する前提ならRegion Proposal Network無くても性能が出た」 [Jiang+,2020] 良く訓練されたFaster

    R-CNNは、 物体領域に区切らなくても既に良い特徴量抽出器! bottom-up attention grid feature [Jiang+,2020] Region Proposal Networkを除く利点: • 下流タスク訓練後に最終的な性能が向 上(物体領域抽出のミスが下流タスク の性能ボトルネックにならないため) • 処理速度が高速化される 【VQA全体の処理速度】 • 0.02 [秒/枚] (grid feature) • 0.89 [秒/枚] (bottom-up) 29/54
  18. VinVL's pre-training (4 large dataset) 現在のデファクトとなるFaster R-CNN訓練手法 • VQA Challenge

    2020の優勝手法 • 技術的新規性はないが、複数データセットをうまくブレンド して上手に訓練した点がウリ • 学習後にgrid featureを利用するのは第二形態と同じ 第三進化形態:VinVL [Zhang+,2021] Bottom-up attention (OpenImages datasetで訓練) 30/54
  19. 新しい流れ: Transformerによるpatchベース 画像をパッチに区切って一から学習(ViLT [Kim+,2021]) • 利点:Faster R-CNNを捨てられるので処理が速い Model Comparison [Kim+,2021]

    ViLT [Kim+,2021] UNITER [Chen+,2020]: a region based V&L model (処理が重い) Pixel-BERT [Huang+,2020]: a grid-based V&L model (処理速度まあまあ速い) ViLT: modified from UNITER (特徴量抽出がないので速い) 31/54
  20. 余談:VQA Challenge2021の優勝モデル 2021年の優勝モデルは物体領域特徴とgrid特徴を両方使って アンサンブルしている image is cited from "VQA Challenge

    2021 Winner talk" https://drive.google.com/file/d/1KjVjz9cG0KFbEzQwckyDXwrh_63-dbBn/view VQA2021 Winner Accuracy: 79.78% bottom-up attention VinVL Big ensemble with SoTA models region and grid feature 32/54
  21. Visual semantic embedding (VSE) 有名なCLIPの元になった方法論 対照学習で画像と言語の共通の潜在空間を学習する [Wu+, 2019] 画像 言語

    共通の 潜在空間 相互に変換可能だと、検索・生成に使えて嬉しい 埋め込む言語情報の単位は様々 • 物体ラベル [Frome+,2013] • 単語 [Kiros+,2014] • フレーズと文 [Wu+,2019] • (CLIPは雑多なテキスト) 34/54
  22. VSEのための対照学習(黎明期) 1正例1負例をつくってTriplet lossで学習 ※負例はミニバッチから一つランダムに選ぶ ※対照学習とは?→正例負例を比べて訓練する手法 Triplet loss 正例ペア 負例ペア 𝑣𝑗

    𝑡𝑗 𝑡𝑘 ※𝑠はスコア関数(cosが多い) 𝑣𝑗 と近いほどloss小 𝑣𝑗 と遠いほどloss小 𝑡𝑗 𝑡𝑘 𝑣𝑗 学習後 ℒ𝑣,𝑡 = Σ𝑗 Σ𝑘 max 0, 𝛼 − 𝑠 𝑣𝑗 , 𝑡𝑗 + 𝑠(𝑣𝑗 , 𝑡𝑘 ) ℒ𝑡,𝑣 = Σ𝑗 Σ𝑘 max 0, 𝛼 − 𝑠 𝑡𝑗 , 𝑣𝑗 + 𝑠(𝑡𝑗 , 𝑣𝑘 ) ℒ𝑡𝑜𝑡𝑎𝑙 = ℒ𝑣,𝑡 + ℒ𝑡,𝑣 35/54
  23. VSEのための対照学習(現在) 1正例N負例をつくってInfoNCE loss(の亜種)で学習 ※InfoNCE loss [Oord+,2018]については論文参照 ℒ𝑣,𝑡 = −𝔼 log

    exp 𝑠 𝑣, 𝑡𝑘 Σ exp 𝑠 𝑣, 𝑡𝑘 , ℒ𝑡,𝑣 = −𝔼 log exp 𝑠 𝑡, 𝑣𝑘 Σ exp 𝑠 𝑡, 𝑣𝑘 ℒ𝑡𝑜𝑡𝑎𝑙 = 1 2 (ℒ𝑣,𝑡 + ℒ𝑡,𝑣 ) 𝑡𝑗 𝑣𝑗 𝑡4 𝑡2 𝑡3 𝑡1 複数の負例と比べ る方が性能が良い 36/54
  24. CLIPにおけるClass-free分類 𝑠𝑖𝑗 = 𝑠𝑐𝑜𝑟𝑒 𝐼𝑖 , 𝑇𝑗 = cos 𝐼,

    𝑇 ⋅ exp 𝑡 softmax 𝑝11 𝐼 = exp 𝑠 𝐼1 , 𝑇1 Σ𝑗 𝑁 exp 𝑠 𝐼1 , 𝑇𝑗 ℒ𝐼 = −Σ𝑖 𝑁𝑦 𝑖 𝐼 𝑇 log 𝑝 𝑖 𝐼 𝑇 𝐼1 visual feature text feature 𝑇1 𝑇2 𝑇3 𝑠11 𝑠12 𝑠13 ⋯ 𝑇𝑁 ⋯ 𝑠1𝑁 1. similarity scoreの計算 𝑝11 𝐼 𝑝12 𝐼 𝑝13 𝐼 ⋯ 𝑝 15 𝐼 2. softmaxによる正規化 𝑝 1 (𝐼) 1 0 0 ⋯ 0 𝑦 1 (𝐼) target label (positive pair is known) 3. バッチサイズNの時のN値分類の問題としてlossが計算できる 38/54
  25. CLIPにおけるClass-free分類 softmax ℒ𝑇 = −Σ𝑖 𝑁𝑦 𝑖 𝑇 log 𝑝

    𝑖 𝑇 visual feature text feature 𝑇1 𝑠11 𝑠21 𝑠31 𝑠𝑁1 𝑝 1 (𝑇) 1 0 0 0 𝑦 1 (𝑇) テキストから見た画像のN値分類も同様にできる 𝐼1 𝐼2 𝐼3 𝐼𝑁 ⋯ 𝑝 11 𝑇 𝑝 21 𝑇 𝑝 31 𝑇 ⋯ 𝑝 𝑁1 𝑇 ⋯ ⋯ 合計のloss: ℒ𝑡𝑜𝑡𝑎𝑙 = ℒ𝐼 + ℒ𝑇 2 39/54
  26. CLIPのゼロショット画像認識 • "There is a group of orange fish eggs

    on the table" • "There is a group of orange foods on the table" • "There is a group of yellow fish eggs on the table" 0.627 0.181 0.192 probability (fish eggsを改悪) 手作りテンプレ: "There is a group of [color] [food] on the table" (色を改悪) CLIP 入力画像 手作り説明文を使った画像からの説明文検索 予測確率の高い文のラベルを予 測結果とする 上の例は2種類の分類に対応 41/54
  27. CLIPの面白い特徴:Typographic attack "There is a group of orange fish eggs

    on the table" "There is a group of yellow fish eggs on the table" "There is a group of blue fish eggs on the table" 0.005 0.833 0.162 probability CLIPは画像中のテキストに敏感(画像中にテキストが 映っている画像が多い?) 利用する時は注意する必要がある 42/54
  28. CLIPの応用例:テキストによる画像生成 基本的なアイデアはだいたい同じ 1. 画像生成モデル(StyleGANなど)の潜在変数zを初期化 2. zにノイズを加えて複数の新しいz’を作成 3. 複数のz’からそれぞれ画像を生成 4. CLIPで生成画像と入力テキストの類似度を計算

    5. 評価の高いzを残して2以降を繰り返す [Galatolo+,2021] z 𝑧1 ′ 𝑧2 ′ 𝑧3 ′ add noise 画像 生成器 image image image 0.627 0.181 0.192 CLIP text Q. backpropじゃだめなの? A. ある程度最適解に近づくと停滞しやすい(経験談) 43/54
  29. テキストからの画像生成の例 (using VQ-GAN) input text: "two judo players on TV."

    https://colab.research.google.com/drive/1ZAus_gn2RhTZWzOWUpPER NC0Q8OhZRTZ#scrollTo=ZdlpRFL8UAlW 44/54
  30. 注意機構を利用した画像と言語の統合方法 注意機構(Attention)とは? 「たくさんのベクトルの集合から、必要な情報に関連する ベクトルを自動的に取捨選択する仕組み」 CV最前線ニュウモンVision and Languageより引用 + attention (weight)

    重みづけして足す (内挿操作) たくさんのベクトル の集合(材料) 完成品を得るためには重みづけ をどう自動で決めると良い? 出力 (完成品) 45/54
  31. Query, Key, ValueによるAttention計算 • Query:情報を引き出すための鍵 • Key:Valueにアクセスするための鍵穴 • Value:引っ張り出したい情報源 𝑄

    𝐾 𝑉 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑄, 𝐾, 𝑉 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑄𝑇𝐾 𝑑 ⋅ 𝑉 ※ 𝑑はスケーリング V&Lでよく出てくるのは以下の2種類 • Source-target attention:Queryが別の情報源から • Self-attention:Queryが同じ情報源から 46/54
  32. VQA Challenge2021優勝手法のテクニック: Learning to Attend image is cited from "VQA

    Challenge 2021 Winner talk" https://drive.google.com/file/d/1KjVjz9cG0KFbEzQwckyDXwrh_63-dbBn/view 1-stream型+モダリティごとに重みづけパラメータ𝜀1 , 𝜀2 を学 習 ( 𝜀1 = 𝑀𝐿𝑃1 (ℎ𝐶𝐿𝑆 ), 𝜀2 = 𝑀𝐿𝑃2 (ℎ𝐶𝐿𝑆 ) ) ℎ𝐶𝐿𝑆 1-stream型から2-stream型にも変化できる手法 48/54
  33. まとめ 近年のV&Lの動向 Transformer+大規模データ+様々なタスク →基盤モデルとしてのV&Lモデルへ 技術的に重要なポイント • Transformerに合わせた画像のトークン化 • 速度と精度の要求に合わせた画像特徴量抽出手法の確立 •

    対照学習を利用した画像と言語の共有空間の学習方法の確立 • 注意機構による画像と言語の統合方法の成熟 課題 • 大規模データゆえのバイアスへの対処のしにくさ • 大規模モデルの汎化性をどう評価するのが良いか? • 学習のコストの高さから、新しいモデルの検討が既存の大規 模モデルに依存せざるを得ない状況 54/54
  34. 文献情報 P.4 [Vinyals+, 2015] Oriol Vinyals, Alexander Toshev, Samy Bengio,

    and Dumitru Erhan. Show and tell: A neural image caption generator. CVPR 2015. [Agrawal+, 2016] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick, and Devi Parikh. VQA: visual question answering. ICCV2015. [Das+, 2018] Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh, Dhruv Batra. Embodied Question Answering. CVPR2018. [Xu+, 2018] Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He. AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks. CVPR2018. [Bisk+, 2016] Yonatan Bisk, Deniz Yuret, Daniel Marcu. Natural Language Communication with Robots. NAACL2016. P.6 [Okada, 1980] Naoyuki Okada. Conceptual taxonomy of Japanese verbs for understanding natural language and picture patterns. COLING1980. [Hiyoshi+, 1994] Mayumi Hiyoshi and Hideo Shimazu. Drawing pictures with natural language and direct manipulation. COLING1994. 56/54
  35. 文献情報 P.16 [Bommasani+, 2021] Bommasani et al. On the Opportunities

    and Risks of Foundation Models. In arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2108.07258 P.19 [Dosovitskiy+, 2021] Dosovitskiy, A. et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. in International Conference on Learning Representations (2021). P.20 [Ramesh+, 2021] Aditya Ramesh, et al. Zero-Shot Text-to-Image generation. arXiv preprint arXiv 2102.12092, 2021. P.24 [Oord+, 2017] Aaron van den Oord et al. Neural Discrete Representation Learning. NIPS2017. P.27 [Ren+,2017] Shaoqing Ren, et al. Faster R-CNN: Towards Real-Time object detection with region proposal networks. IEEE Trans. Pattern Anal. Mach. Intell., Vol. 39, No. 6, pp. 1137–1149, 2017. P.28 [Anderson+,2018] Peter Anderson, et al. Bottom-up and top-down attention for image captioning and visual question answering. In 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018. P.29 [Jiang+,2020] Huaizu Jiang, et al. In defense of grid features for visual question answering. In Proceedings of CVPR, 2020. P.30 [Zhang+,2021] Pengchuan Zhang, et al. VinVL: Making visual representations matter in vision-language models. CVPR. 2021. 57/54
  36. 文献情報 P.31 [Kim+,2021] Wonjae Kim, et al. ViLT: Vision-and-Language transformer

    without convolution or region supervision. ICML, 2021. [Chen+,2020] Yen-Chun Chen, et al. UNITER: universal image-text representation learning. In Proceedings of ECCV, Vol. 12375 of Lecture Notes in Computer Science, pp. 104–120, 2020. [Huang+,2020] Zhicheng Huang, et al. Pixel-BERT: Aligning image pixels with text by deep Multi-Modal transformers. arXiv preprint arXiv 2004.00849, 2020. P.34 [Frome+,2013] Andrea Frome, et al. DeViSE: A deep visual-semantic embedding model. NIPS, 2013. [Kiros+,2014] Ryan Kiros, et al. Unifying visual-semantic embeddings with multimodal neural language models. arXiv preprint arXiv:1411.2539, 2014. [Wu+,2019] Hao Wu, et al. Unified visual-semantic embeddings: Bridging vision and language with structured meaning representations. In Proceedings of CVPR, 2019. P.36 [Oord+,2018] van den Oord, A., Li, Y. & Vinyals, O. Representation Learning with Contrastive Predictive Coding. arXiv, 2018. 58/54
  37. 文献情報 P.37 [Radford+,2021] Alec Radford, et al. Learning transferable visual

    models from natural language supervision. In Proceedings of ICML, Vol. 139, pp. 8748–8763, 2021. P.43 [Galatolo+,2021] Galatolo, F. A., et al. Generating images from caption and vice versa via CLIP-Guided Generative Latent Space Search. arXiv [cs.NE] (2021) 59/54