Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自然言語処理とVision-and-Language / A Tutorial on NLP & Vision-and-Language

自然言語処理とVision-and-Language / A Tutorial on NLP & Vision-and-Language

2022年度人工知能学会全国大会(第36回) チュートリアル講演資料

Kyosuke Nishida

June 14, 2022
Tweet

More Decks by Kyosuke Nishida

Other Decks in Research

Transcript

  1. 1. 深層学習による⾃然⾔語処理技術の動向 – タスクとモデルの分類 – Transformerとセルフアテンション – ⼤規模事前学習モデル︓BERT,GPT-3 2. ビジョン&ランゲージへの派⽣

    – 視覚と⾔語を扱うTransformerモデル – 視覚と⾔語の対照学習︓CLIP – CLIPが可能にした技術 – ⽂書画像の理解 3. 最新動向と今後の展望 2 ⽬次
  2. 4 “深層学習時代の”⾃然⾔語処理の概要 ニューラルネットワーク lϝϩε͸ౖܹͨ͠ɻඞͣɺ͔ͷअஐ๫ٮʜܾҙͨ͠z <S> メロ スは 激怒 … した

    トークン(単語や サブワード)化 各トークンを ベクトルへ“埋め込み” ベクトル系列から 所望の情報へ 分類ラベル,⽣成テキスト,特徴量(ベクトル),etc. ⼊⼒テキスト トークン系列 ベクトル系列 ベクトル系列 出⼒情報 ベクトル系列の変換を 繰り返し⾏う
  3. • ニューラルネットワークの出⼒を正解に近づけるように学習を⾏う • ⾃然⾔語処理タスクの多くは「分類問題」として学習される 学習のイメージ 5 タスク︓テキストを2つのクラスに分類 2次元ベクトルを出⼒ 正解クラスの 値を⼤きく

    不正解クラス の値を⼩さく lϝϩε͸ౖܹͨ͠ɻz 感情判定 モデル “negative” “positive” タスク︓⼊⼒に続く次の単語を⽣成 語彙サイズの次元数のベクトルを出⼒ lϝϩε͸z ⽂章⽣成 モデル “激怒” 正解単語の値を ⼤きく “⾛る” 他の値を ⼩さく
  4. • (1) ⼤規模なコーパスに基づく事前学習により汎⽤モデルを作り, (2) ファインチューニングにより各タスクに適応する⽅式が主流に • タスクごとにモデルを設計することは少なくなった.また,タスクは2種 類に⼤別して語られることが多くなった “BERT以降”: 事前学習とファインチューニング

    事前学習済 モデル (BERTなど) タスク応⽤ モデル 汎⽤ ニューラル ネット構造 ⼤規模コーパスで 事前学習 少量データで ファインチューニング 数GB〜レベルの アノテーションなし テキストコーパス 数百〜数千件レベル の正解付データ 7
  5. • ⾃然⾔語理解(NLU)と⾃然⾔語⽣成(NLG)の2種類に⼤きく分類 • タスクごとに適したアーキテクチャがある ⾃然⾔語処理タスクの分類 • テキスト分類 • 情報検索 •

    感情分析 • 固有表現抽出 • Etc. ⾃然⾔語理解 Natural Language Understanding テキストの意味を理解 ⾃然⾔語⽣成 Natural Language Generation ⼊⼒からテキストを⽣成 • 機械翻訳 • ⽣成型要約 • 発話⽣成 • ⾔い換え • Etc. 8
  6. • エンコーダ型のモデルを⽤いて,テキスト(単語系列)のクラス分類, 各単語へのラベリングなどを⾏う • 代表モデル︓BERT [Devlin+, NAACL’19] 9 NLUタスクとモデルのイメージ 4ٶ୔

    ݡ࣏ ͸ ೔ຊ ͷ ⼈名 固有表現抽出 双⽅向モデリング 各位置の出⼒は 未来情報(右側)にも依存 ⼈名 ⽂学 クラス分類 テキストは ⼀度に与えられる
  7. • エンコーダデコーダ型のモデルを⽤いて,テキストAからテキストBに変 換(翻訳や要約など)する • 代表モデル︓Transformer [Vaswani+, NIPS’17],T5 [Raffel, JMLR’21] 11

    NLGタスクとモデルのイメージ(2) ͜Ε ͸ ϖϯ Ͱ͢ ɻ T T エンコーダの 出⼒をデコーダで利⽤ 5IJT JT B QFO  T 5IJT JT B QFO 
  8. • 近年の事前学習済み⾔語モデルの多くが殆どが Transformer ベースと なっている • ビジョン&ランゲージにもTransformerの事前学習が派⽣している(後半 で説明) 12 最近のベースモデル=Transformer

    Transformer BERTなど エンコーダデコーダを 事前学習 GPT-3など デコーダを 事前学習 T5など エンコーダを 事前学習 エンコーダデコーダ
  9. 次単語は何か︖ • デコーダが1単語ずつ出⼒するときに、エンコードされた翻訳元テキスト のどの部分に注意すれば良いかを与える機構(⾏列計算で実現) 15 アテンション [Bahdanau(Jacobs U)+, ICLR’15] これ

    は ペン です </s> <s> This is a “pen”を予測 注意 softmax = Encoderの隠れ状態の 重み付き平均 エンコーダ デコーダ コンテキスト (「ペン」に強い注意) ℝ!×# ℝ#×$ ℝ$×# ℝ!×#
  10. • エンコーダデコーダの双⽅で セルフアテンションを導⼊ • ブロックを多層に積上げる ことで性能向上 • 今⽇の説明は超簡易版なので 詳細は論⽂等にて︕ 17

    Transformerの簡略化イメージ Self-Attention (Q=X, K=X, V=X) Self-Attention (Q=Y, K=Y, V=Y) Cross-Attention (Q=Y, K=X, V=X) ブロックxN ブロック xN ⼊⼒単語系列X 出⼒単語系列Y(次単語予測) 出⼒単語系列Y(予測を戻す) 単語・位置埋込 単語・位置埋込 線形変換&softmax FFN(MLP) FFN(MLP)
  11. • シンプルな出⼒層を1層だけ基盤モデルの最上部に追加する – 例︓機械読解では回答範囲の始点・終点予測⽤に線形変換を追加 27 BERTの特徴(3) ファインチューニング BERT (Transformerエンコーダ) 出⼒層

    [CLS] 質問⽂ [SEP] テキスト(回答抽出元) [SEP] テキスト中の 各トークンの回答範囲始点・終点スコア …. は 3 ⽉ 12 ⽇ で ある … ….. の ⽇付 は ︖
  12. 35 Jurassic-1 [Lieber(AI21)+, 2021/08] タスク説明 例 プロンプト ⽣成テキスト • イスラエルのスタートアップ企業AI21により,ほぼGPT-3と同サイズ

    (1780億)のモデルがリリースされた • AI21ではアカウント登録すれば無料利⽤できる環境に加えて,テキスト ⽣成やカスタム学習が可能な有料APIを提供している https://studio.ai21.com/playground より実際の実⾏例
  13. 1. 深層学習による⾃然⾔語処理技術の動向 2. ビジョン&ランゲージへの派⽣ – 視覚と⾔語を扱うTransformerモデル – 視覚と⾔語の対照学習︓CLIP – CLIPが可能にした技術

    – ⽂書画像の理解 3. 最新動向と今後の展望 – モデル・データの⼤規模化 – プロンプトとファインチューニング – ⾔語を軸としたマルチモーダル理解へ 38 ⽬次
  14. • 画像処理と⾃然⾔語処理の融合領域 • TransformerやBERTの成功が,視覚と⾔語を結びつけた理解にも派⽣し, 急速に発展している 39 Vision-and-Languageとは “Flamingo”による画像の内容に基づく対話 [Alayrac(Deepmind)+,2022/04/29] “DALL-E

    2”によりテキストから⽣成された画像 [Ramesh(OpenAI)+,2022/04/13] vibrant portrait painting of Salvador Dalí with a robotic half face a shiba inu wearing a beret and black turtleneck https://cdn.openai.com/papers/dall-e-2.pdf https://arxiv.org/abs/2204.14198
  15. • ⾃然⾔語処理と同様に,理解/⽣成で⼤別可能 40 Vision-and-Languageの主なタスク 視覚・⾔語の融合理解に基づく⽣成 視覚・⾔語の融合理解 ベレー帽と タートルネック を着た柴⽝ Document

    VQA (回答⽣成型) チョコレート シロップが掛かった ワッフル2つとアイス Score: 0.98 画像・⾔語のマッチング(検索) VQA (回答選択型) ベッドの上に ⼦供は何⼈いますか︖ 1 / 2 / 3 / … ソーシャルメディア の利⽤率は︖ 16% (100-84) 階段を登り,次に ピアノの横を... forward, left, …, stop ロボットナビゲーション Image-to-text / Text-to-image
  16. 1. Webなどから⼤量の画像とキャプションのペアを収集 2. 画像を系列データとして捉えて,テキストの単語系列と併せて Transformerエンコーダに⼊⼒ 3. ⽳埋め・マッチングタスクなどで事前学習 41 V&L事前学習の概要 Web

    店内でオレンジ ジュースをカップ に注いでいる⼥性 ⼤量に収集 https://cocodataset.org/#explore?id=306267 Transformerエンコーダ [SEP] 店内 で オレンジ … ⼥性 [CLS] … 系列化 ⼥性? [MASK] 各トークンの ⽳埋め問題 本当に存在する 画像とキャプションのペアか︖ True?
  17. • 物体検出器がカバーする概念の広さと検出精度にV&Lモデルの性能が⼤ きく依存してしまう è 物体検出に依存しない,汎⽤の画像エンコーダが得られないか︖ 46 物体検出による画像表現抽出の限界 ⾷品 ⾷器 フォーク

    ⾷器 ⾷器 商⽤の物体検出APIの結果 各種Webサービスのアイコンを 認識できず ⾷品や⾷器の細かい違いが認識できていない マットやコーヒーについて認識漏れ オブジェクト検出なし
  18. • Webから収集した4億件の画像とテキストのペアから事前学習された視 覚・⾔語の基盤モデル • 画像エンコーダとテキストエンコーダが独⽴に⼊⼒をベクトル化 • 正しい画像と説明⽂のペアの内積が⼤きくなるように対照学習 50 CLIP [Radford(OpenAI)+,

    2021/01, ICML’21] 正しいペアの内積 を⼤きくするよう に学習 Vision Transformer やCNN Transformer 各テキストの ベクトル 各画像の ベクトル https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf
  19. 51 CLIP [Radford(OpenAI)+, 2021/01, ICML’21] 固定のクラスベクトル集合 (学習パラメータ) テキストエンコーダが出⼒ した任意のテキストの表現 CLIP(Contrastive

    Language-Image Pre-training) 関係するテキスト表現との 内積が⼤きくなるように 両⽅のエンコーダを学習 正解のクラスベクトルとの 内積が⾼くなるように学習 通常の画像分類 https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf
  20. • 従来の画像分類や物体検出ではカバーできていない概念も理解 53 Zero-shot分類の例 ✔ワカモレ ✔癌化リンパ節 (正常リンパ節) ✘笑顔 (怒り) ✔TVスタジオ

    ✘キツネリス (オオヤマネコ) ✔バレーの スパイク ✔⾶⾏機 ✔⿃ ✔カンガルー https://cdn.openai.com/papers/Learning_Transferable_Visual_ Models_From_Natural_Language_Supervision.pdf
  21. • これまでの画像分類や物体検出で事前学習された画像エンコーダは, 視覚と「有限個の記号」の結びつけであった • CLIPにより,視覚と「任意の⾔語」を結びつけた理解が⾰新的に進み, 最近の急速なモデルの進化につながった 54 CLIPは何が凄いのか(1) Class: 11

    画像エンコーダはこのクラスが 何を意味しているのか理解していない 画像分類・物体検出の場合 l੺ɺԫɺനɺࠇͳͲͰ઱΍͔ʹ ࠼ΒΕͨඒ͍͠খௗ͕໦ʹࢭ·͍ͬͯΔz CLIPの場合 ⾔語と結びつけた理解は 様々な概念の共通理解に通づる https://salient-imagenet.cs.umd.edu/explore/class_11/feature_520.html
  22. • 従来のImageNetデータセットでは,25,000⼈が1,400万枚の画像に対して 22,000クラスをWordNetの名詞と紐付けてアノテーション • CLIPはWebから収集したデータを⽤いて,(ノイズはあるが)⽐較的低 コストで遥かに広い概念を⾔語と結びつけて学習可能 55 CLIPは何が凄いのか(2) ImageNetの ”Tench”(コイ科の淡⽔⿂)カテゴリの写真の例

    ImageNetの ”Siberian Husky”カテゴリの写真の例 本来不要な男性も含めてTenchが 学習されてしまう ⽝の数や動作については無考慮 https://salient-imagenet.cs.umd.edu/explore/class_0/feature_686.html https://salient-imagenet.cs.umd.edu/explore/class_250/feature_829.html CLIP: 「釣り上げたTenchを 抱えている男性」と学習 CLIP: 「3匹のシベリアンハ スキーが芝⽣に座る」と学習
  23. • 初期のV&Lモデルでも画像とテキストのマッチングの学習は⾏っていた が,画像とテキストを同時に⼊⼒するので学習効率を上げにくい • CLIPではエンコーダが分離されているので対照学習を⾏い易い – テキスト検索においては”In-batch Negatives”として知られるテクニック [Karpukhin, EMNLP’20]

    56 CLIPは何が凄いのか(3) エンコーダが分離されていれば, B件のペアに対して B^2の組み合わせの学習が可能 https://cdn.openai.com/papers/Learning_Transferable_Visual_ Models_From_Natural_Language_Supervision.pdf 画像とテキストを同時に⼊⼒する クロスエンコーダタイプ
  24. • CLIP空間上のテキストの変化⽅向を,StyleGAN [Karras+, CVPR’20] 空間 に画像チャネル毎に射影し,⾃然⾔語による画像編集を可能にした • 各空間における画像の変化の関係を予め前処理として獲得しておくこと で,画像編集時は学習なしで編集可能 StyleCLIP

    [Patashnik+, ICCV’21] https://openaccess.thecvf.com/content/ICCV2021/papers/Patashnik_StyleCL IP_Text-Driven_Manipulation_of_StyleGAN_Imagery_ICCV_2021_paper.pdf A female face A surprised female face CLIP空間 Style空間 射影 58
  25. • VQGAN [Esser+, CVPR’21] で⽣成した画像がCLIP空間でターゲットテキス トと類似するように潜在変数(Z-vector)を最適化する • “AIアート”としてSNS・ニュースサイト等で話題に VQGAN+CLIP [Crowson(EleutherAI)+,

    2021/07] Z-vector VQGAN Decoder CLIP 類似度のlossで学習 学習パラメータ an astronaut in the style of van Gogh https://arxiv.org/abs/2204.08583 blue whales swimming through neon city 59 https://twitter.com/ak92501/status/1413360535685435396
  26. • 学習時に,物体検出モデルの出⼒する領域の画像表現を,CLIP空間の画 像表現に近づける(蒸留)ようにすることで,任意のテキスト(”open vocabulary”)で物体検出可能なモデル 61 ViLD [Gu(Google)+, ICLR’22] Toy duck

    CLIPのテキストエンコーダで 任意のテキストクラスを指定可能 物体検出器 の出⼒ CLIPの画像 エンコーダ の出⼒に近づける Toy duck Green toy Blue toy https://arxiv.org/abs/2104.13921
  27. DALL-E 2 [Ramesh(OpenAI)+,2022/04/13] • CLIP+拡散モデル [Ho+, NeurIPS’20] によるテキストからの画像⽣成 • (1)

    CLIPのテキスト表現→画像表現を⽣成するpriorと,2) CLIPの画像表現 →画像を⽣成するdecoderにて画像を⽣成 画像表現 テキスト表現 https://cdn.openai.com/papers/dall-e-2.pdf 64 拡散モデル等 拡散モデル
  28. 67 ⽂書を”視覚的に”読み解くAIを⽬指して 上限料⾦ (税込) 5,800 円/⽉ 基本料⾦ (税込) 2,500 円/⽉

    使った分だけ 利⽤料が増えます ⽉額利⽤料 回線利⽤量 2段階 定額プラン 1,000MB 200MB ライトプラン 利⽤料⾦イメージ 1,000MB の⽬安 ホームページ閲覧とメールに加え,動画閲 覧を⽉に1時間程度 2⽇に1回,1時間程度インターネット利⽤ 200MB の⽬安 ホームページ閲覧とメールが中⼼ 2⽇に1回,30分程度インターネット利⽤ 1,200MB 動画を毎⽇1時間は⾒るのですが,ライトプ ランの料⾦は⽉額幾らになりますか︖ 上限料⾦の税込⽉額5,800円 になります 動画を毎⽇⾒るな ら1200MB/⽉は 確実に超えそう このページに答え がありそうだな • ⼈間が⾒る⽂書の情報をそのまま理解可能なAIの実現を⽬指す • ⾔語情報,レイアウト,図やグラフ・表など多岐に渡る理解が必要
  29. 68 視覚情報に含まれる⾔語情報の理解 画像に対する質問応答や 画像の説明⽂⽣成, 画像検索 画像中のテキストも 考慮したタスクへ 単語レベルから⽂・⽂書へ グラフや表なども併せた 理解まで広がる

    • VQAやキャプショニングを発展させ,視覚情報に含まれる⾔語情報に着 ⽬したタスクやデータセットの整備が2019年頃から進む • さらに,2021年頃からは⽂書画像への取り組みが活発化している
  30. • (⽐較的古い)⽂書画像に対するVQAデータセット • ⽂書あたり平均150単語程度が含まれる 69 DocVQA [Mathew+ (IIIT Hyderabad), WACV’21]

    https://openaccess.thecvf.com/content/WACV2021/html/Mathew_DocVQA_ A_Dataset_for_VQA_on_Document_Images_WACV_2021_paper.html
  31. • Webページのスクリーンショットに基づく視覚的読解 • レイアウト理解と⽣成型機械読解を統合した問題設定とモデルを提案 70 VisualMRC [Tanaka & Nishida (NTT),

    AAAI’21, NLP’21最優秀賞] 全ての領域をアノテー ション︓ 9つの意味クラスに分類 約30,000件のQAを作成 回答は⽣成型 https://arxiv.org/abs/2101.11272 約10,000枚の画像を収集 https://github.com/nttmdlabnlp/VisualMRC
  32. 71 ⼀般的な⽂書理解モデルの例 • ⽂書画像⽤のモデルはOCRで抽出された単語の2D座標を考慮する • 視覚表現はオブジェクト(図や段落など)/パッチ/グリッドのいずれか • ⽳埋め問題や,⾔語・視覚間の対応付けにより学習 ⽂書中 座標

    このモデルでは 画像をパッチ化 LayoutLMv3 [Huang(Microsoft)+,2022/04/18] OCRでテキスト抽出 各モーダルの⽳埋め問題と パッチ⇔トークンの対応付 https://arxiv.org/abs/2204.08387 ⽂書画像
  33. 1. 物体検出器を利⽤して視覚物体の領域,意味クラスを追加⼊⼒ 2. ⽳埋め事前学習 (MLM) により,テキストと視覚物体との対応づけ 3. (簡易的な)演算の過程を⽣成 73 IG-BERT

    [⽥中+,NLP’22] 配置情報 トークン 位置情報 セグメント ポイント2 キャプション ポイント3: 簡易な演 算を実施可能に ポイント1︓アイコン⽤ の物体検出器を作成 40(100-60) https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/C1-3.pdf
  34. • 演算の過程を学習可能な新たなデータ拡張⼿法を提案 74 IG-BERT [⽥中+,NLP’22] 質問: 糖尿病を防げた事例の割合は︖ 回答正解データ: 40% 4.3%

    3.6% 1 10 $6 60% 1. ⽂書から数値データの抽出 2. 事前に⽤意した演算テンプレートに代⼊ 「60% + 4.3% = 64.3%」 「100% - 60% = 40%」 3. 回答正解データと⼀致するならデータに加える . . . 100% - 60% 100-60=40の 演算が必要 この演算過程テキスト そのものを⽣成する https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/C1-3.pdf
  35. • 配置関係によるテキストの意味理解はだいぶ進んだ • ダイヤグラム・グラフ・イラストなどの視覚要素や,論理・数値演算の 理解のレベルをもう1段上げる必要がありそう • OCRや物体認識を包含してend-to-endに理解できるか 75 ⽂書画像理解の現状とこれから Donut

    [Kim(NAVER)+, 2021/11] InfographicsVQA [Mathe(IIIT)+, WACV’22] 情報が視覚的に表された⽂書に対するQA. 数値演算や視覚的理解の能⼒が必要 https://arxiv.org/pdf/2104.12756 OCR無しで⽂書画像を理解するTransformer モデル.運⽤や速度⾯で⼤きなメリット https://arxiv.org/abs/2111.15664
  36. • ⾔語モデルでは「⾮連続的な性能向上」など興味深い現象の解明に向 かって⼤規模化が続きそう.sparseなTransformer(Mixture Of Experts) ではbillion(10億)を越えてtrillion(1兆)レベルへ進んでいる • ⼀⽅で,画像モデルはまだ3B(dense)〜15B(sparse)程度.⾔語に⽐ べて,単純なサイズ増⼤が精度向上に繋がっていない モデルは今後さらに⼤きくなるか︖

    SwitchTransformer [Fedus+, JMLR22] SwinTransformer V2 [Liu+, CVPR’22] Transformer構造を変更しモデルサイズ3B/ 解像度1536x1536までスケールアップに成功 MoE構造の1.6TBモデル.各トークンに 対してexpertのみが動作するので省計算 2048 experts 81 https://arxiv.org/abs/2101.03961 https://arxiv.org/abs/2111.09883
  37. • ⽇々新しい知識が発⽣することや,ニューラルモデルには不得意な分野 の存在を考えると,全ての知識・機能を1モデル内に詰め込む必要は無い • 特に情報検索や数値計算などと組み合わせて利⽤可能なモデルの研究が 活発化している 外部ツールを使えるようになるか︖ LaMDA [Thoppilan(Google)+, 2022/01/20]

    検索・計算・翻訳ツールをモデルの外に置き,随時呼び出して応答⽂作成に利⽤ 外部知識から得たテキストを 基に⽣成した応答⽂ ユーザ発話 検索クエリ発⾏ 検索クエリ発⾏ 82 https://arxiv.org/abs/2201.08239
  38. • (偏りの存在する)⼤量データで学習したことによる,⾔語モデルの出 ⼒に関するバイアスの存在や,有害なテキスト⽣成の問題が課題 • 近年の⼤規模⾔語モデルの評価観点として重要視されている モデルのバイアスを解消できるか︖ https://arxiv.org/pdf/2204.02311.pdf The nurse notified

    the patient that his shift would be ending in an hour. The “his” refers to … the patient ? the nurse? 指⽰語の性別バイアスの評価 ステレオタイプと異なる 組み合わせだと精度落ちる プロンプトに続く⽣成テキストが有害となる分布 特定宗教に関して有害なテ キストを⽣成しやすい スコア⼤︓有害 https://arxiv.org/abs/2204.02311 83 PaLM [Chowdhery (Google)+, 2022/04/19]
  39. 85 PromptSource [Bach(Brown U)+, 2022/2/2, ACL’22 demo] https://arxiv.org/abs/2202.01279 • 追加学習が難しい⼤規模⾔語モデルで重要となる「プロンプト」の作

    成・共有・利⽤のためのツールキット 👉 pip install promptsource • 170を超えるデータセット⽤に2000個以上のプロンプトが作成済. – 良い結果を得るための「プロンプトチューニング」が⾏われている
  40. • PaLMの翻訳の例では,540BのモデルでもFew-shot学習(プロンプトの例 ⽰だけ)ではFine-tuningモデルの性能に追いついていない • カザフ語(kk)などの低資源⾔語になると学習コーパスに含まれる量が激減 し,対訳データを⽤いたモデルと⼤きく差が付く. ※ PaLMの学習コーパス中カザフ語は134Mトークン,ドイツ語(de)は26Bトークン. PaLM [Chowdhery

    (Google)+, 2022/04/19] 図︓ https://arxiv.org/abs/2204.02311 の情報をまとめて作成 0 5 10 15 20 25 30 35 40 45 50 en->fr en->de en->ro en->kk kk->en PaLM(0-shot) PaLM(1-shot) PaLM(few-shot) 対訳データ利⽤ 0-shot︓promptの翻訳例なし 1-shot︓promptに翻訳例を1ペア利⽤ Few-shot︓promptに9 or 11例利⽤ 86
  41. • 教師あり学習で⼤規模モデルを特定のタスクに適応させるのは困難 • ⼩型のモデルで教師あり学習を組み合わせて,⼤型モデル並の優れた性 能と運⽤のし易さを両⽴する研究も進んできている 精度が良く使い易いモデルを作れるか︖ T0 [Sanh (Huggingface)+, ICLR’

    22] 55タスクをプロンプト付で同時学習するこ とで新規タスクをzero-shotで実施可能. 11Bモデルで175BのGPT-3を時に上回る T-Few [Liu(UNC)+, 2022/05/11] モデル全体の0.02%程度にあたる追加パラ メータのみを更新.11タスク/各50サンプ ル学習の平均精度でGPT-3を上回る 88 https://arxiv.org/abs/2205.05638 GPT-3 175B T-Few 3B 精度 計算量 https://arxiv.org/abs/2110.08207
  42. • ⾔語モデルにおけるプロンプトの考え⽅は,AIの⼊出⼒の「説明可能 性」においても今後重要性を増していく • 思考の⾔語化・視覚化は,ヒトにとって分かりやすいだけでなく,難し いとされてきたタスクの解決にも期待できる 89 AIの思考過程を明らかにできるか︖ iACE [Lu+,

    NAACL’22] ⾔語理解タスクである含意認識のテキストを 画像化(想像)して視覚・⾔語の両⾯から判断 Chain of thought [Wei+, 2022/1/28] 算数の⽂章題の思考過程を⾔語化して 例⽰することで精度向上 Premiseが正しかったら Hypothesisも正しいか︖ https://arxiv.org/abs/2201.11903 https://arxiv.org/abs/2204.08535 計算過程を例⽰に含める
  43. • CLPの⽅式で学習した画像エンコーダ(433M)と,事前学習済みの⼤規 模⾔語モデル(70B)から構成.それぞれは固定し,適応⽤のネットワー クを(194M/10B)を追加することで結合 92 Flamingo [Alayac(DeepMind)+, 2022/04/29] 画像 エンコーダ

    (CLIP) ⾔語モデル (Chinchilla) ⼊⼒︓画像(複数枚可),テキスト 出⼒︓テキスト FFN+クロス アテンション 固定⻑の ベクトル 系列へ変換 https://arxiv.org/abs/2204.14198
  44. • CLIPの成功により⾃然⾔語インタフェースによるAI・ロボティクス研究 が今後⾶躍的に進みそう • CLIPによってあらゆるシーンで「⾔語で与えた⽬標」と「現状の視覚的 状態」の整合性について理解し易くなったことが⼤きい 95 V&L研究の応⽤分野はどう進むか︖ MOTIF [Burn+,

    2022/02/04] モバイルアプリを⾃然⾔語により操作する CLIPort [Shridhar+, CoRL’21] ロボットアームを物体認識⾮依存で ⾃然⾔語により操作する https://cliport.github.io/ https://arxiv.org/abs/2104.08560 ⻘いブロックを緑のボウルに⼊れて
  45. • 視覚⾔語をさらに発展させ,他のモーダルも⾔語と結びつけていくこと で,より汎⽤な知的エージェントへの挑戦が進んでいく • 他モーダルでのCLIPに相当するモデルの確⽴や,Transformerによる複数 モーダルの統⼀的なモデリングが重要となっていく 96 汎⽤⼈⼯知能研究はどう進むか︖ Gato [Reed+,

    2022/05/12] ゲームや対話,ロボット制御など604タスクを 1モデルで学習.全ての⼊出⼒(テキスト・ 視覚・離散/連続値など)をトークン化して ⾔語モデル的に予測. MERLOT Reserve [Zellers+, CVPR’22] 20M件のYouTube動画から視覚・⾔語・⾳ の関係を学習.対照学習も利⽤. https://arxiv.org/abs/2201.02639 https://arxiv.org/abs/2205.06175
  46. 97 本講演のまとめ 近年の ⾃然⾔語処理 および Vision-and-Language 分野に関して, 基礎的な内容・最新動向・今後の展望について紹介しました. 1. モデルは汎⽤志向,タスクも理解/⽣成に⼤別される

    2. セルフアテンションを⽤いる Transformer が主流に • 系列データに強く,マルチモーダルの統⼀的なモデリングも可能 3. ⾃⼰教師有り学習で⼤規模事前学習することが主流に • BERT︓ファインチューニングにより各タスクに適応 • GPT-3︓プロンプトによる少量の例⽰で新タスクに適応 4. モデル・事前学習コーパスの⼤規模化が進む • 莫⼤な予算・計算機リソースが必要な世界へ • ⼈間が作成した教師データの重要性にも改めて注⽬ 5. 視覚と結びつけた⾔語理解の⼤きな発展 • CLIPやFlamingoの成功は⼤きなマイルストンとなった • ⾔語理解を軸に汎⽤知的エージェントの実現への期待が⾼まる
  47. 1. Ashish Vaswan et al.: Attention is All you Need.

    NIPS 2017: 5998-6008 2. Jacob Devlin et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT (1) 2019: 4171-4186 3. Tom B. Brown et al.: Language Models are Few-Shot Learners. NeurIPS 2020 4. Colin Raffel et al.: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. J. Mach. Learn. Res. 21: 140:1-140:67 (2020) 5. Dzmitry Bahdanau et al.: Neural Machine Translation by Jointly Learning to Align and Translate. ICLR 2015 6. Pranav Rajpurkar et al.: SQuAD: 100, 000+ Questions for Machine Comprehension of Text. EMNLP 2016: 2383- 2392 7. Jared Kaplan et al.: Scaling Laws for Neural Language Models. CoRR abs/2001.08361 (2020) 8. Opher Lieber et al.: Jurassic-1: Technical Details and Evaluation, Tech. Report, AI21 Labs (2021) 9. Aditya Ramesh et al.: Hierarchical Text-Conditional Image Generation with CLIP Latents. CoRR abs/2204.06125 (2022) 10. Jean-Baptiste Alayrac et al.: Flamingo: a Visual Language Model for Few-Shot Learning. CoRR abs/2204.14198 (2022) 11. Shaoqing Ren, Kaiming He, Ross B. Girshick, Jian Sun: Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. NIPS 2015: 91-99 12. Liunian Harold Li et al.: VisualBERT: A Simple and Performant Baseline for Vision and Language. CoRR abs/1908.03557 (2019) 13. Pengchuan Zhang et al: VinVL: Revisiting Visual Representations in Vision-Language Models. CVPR 2021: 5579- 5588 14. Alexey Dosovitskiy et al.: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021 15. Alec Radford et al.: Learning Transferable Visual Models From Natural Language Supervision. ICML 2021: 8748- 8763 参考⽂献 98
  48. 16. Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick S. H.

    Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih: Dense Passage Retrieval for Open-Domain Question Answering. EMNLP (1) 2020: 6769-6781 17. Or Patashnik et al.: StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery. ICCV 2021: 2065-2074 18. Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, Timo Aila: Analyzing and Improving the Image Quality of StyleGAN. CVPR 2020: 8107-8116 19. Katherine Crowson et al: VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance. CoRR abs/2204.08583 (2022) 20. Patrick Esser, Robin Rombach, Björn Ommer: Taming Transformers for High-Resolution Image Synthesis. CVPR 2021: 12873-12883 21. Xiuye Gu et al.: Zero-Shot Detection via Vision and Language Knowledge Distillation. ICLR 2022 22. Yael Vinker et al.: CLIPasso: Semantically-Aware Object Sketching. SIGGRAPH 2022. 23. Guy Tevet et al: MotionCLIP: Exposing Human Motion Generation to CLIP Space. CoRR abs/2203.08063 (2022) 24. Jonathan Ho, Ajay Jain, Pieter Abbeel: Denoising Diffusion Probabilistic Models. NeurIPS 2020 25. Minesh Mathew et al.: DocVQA: A Dataset for VQA on Document Images. WACV 2021: 2199-2208 26. Ryota Tanaka et al: VisualMRC: Machine Reading Comprehension on Document Images. AAAI 2021: 13878-13888 27. Yupan Huang et al: LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking. CoRR abs/2204.08387 (2022) 28. Minesh Mathew et al: InfographicVQA. WACV 2022: 2582-2591 29. ⽥中涼太 et al: テキストと視覚的に表現された情報の融合理解に基づくインフォグラフィック質問応答, NLP 2022 30. Geewook Kim et al.: Donut: Document Understanding Transformer without OCR. CoRR abs/2111.15664 (2021) 参考⽂献 99
  49. 31. Jack W. Rae et al.: Scaling Language Models: Methods,

    Analysis & Insights from Training Gopher. CoRR abs/2112.11446 (2021) 32. Jordan Hoffmann et al. : Training Compute-Optimal Large Language Models. CoRR abs/2203.15556 (2022) 33. Aakanksha Chowdhery et al.: PaLM: Scaling Language Modeling with Pathways. CoRR abs/2204.02311 (2022) 34. William Fedus et al.: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. CoRR abs/2101.03961 (2021) 35. Ze Liu et al: Swin Transformer V2: Scaling Up Capacity and Resolution. CVPR 2022 36. Romal Thoppilan et al.: LaMDA: Language Models for Dialog Applications. CoRR abs/2201.08239 (2022) 37. Stephen H. Bach et al.: PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts. ACL (demo) 2022: 93-104 38. Long Ouyang et al.: Training language models to follow instructions with human feedback. CoRR abs/2203.02155 (2022) 39. Victor Sanh et al.: Multitask Prompted Training Enables Zero-Shot Task Generalization. ICLR 2022 40. Haokun Liu et al.: Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning. CoRR abs/2205.05638 (2022) 41. Jason Wei et al: Chain of Thought Prompting Elicits Reasoning in Large Language Models. CoRR abs/2201.11903 (2022) 42. Yujie Lu et al.: Imagination-Augmented Natural Language Understanding. NAACL-HLT 2022. 43. Mohit Shridhar et al.: CLIPort: What and Where Pathways for Robotic Manipulation. CoRL 2021: 894-906 44. Andrea Burns et al.: Mobile App Tasks with Iterative Feedback (MoTIF): Addressing Task Feasibility in Interactive Visual Environments. CoRR abs/2104.08560 (2021) 45. Rowan Zellers et al.: MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound. CVPR 2022 46. Scott E. Reed et al.: A Generalist Agent. CoRR abs/2205.06175 (2022) 参考⽂献 100