Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Vision and Languageの現状と展望(GPT-4)

Vision and Languageの現状と展望(GPT-4)

2023年3月27日時点でのVision and Languageの現状と展望(GPT-4)

Masanori Suganuma

March 27, 2023
Tweet

More Decks by Masanori Suganuma

Other Decks in Research

Transcript

  1. 3 ⾃⼰紹介 経歴 • 2017.10 ‒ 2021.09 特別研究員@理研AIP • 2018.10

    ‒ 現在 助教@東北⼤ (最近)関⼼のある研究分野 • Vision and Language NAS + 画像分類 [GECCOʼ17 (Best paper)] NAS+画像復元 [ICMLʼ18, CVPRʼ19] GT-1: a child is brushing her hair in the mirror GT-2: a little girl is brushing GT-1: an ele to far from a GT-2: an ele GT-2: A cat is sleeping on a skateboard. M2: a kitten laying on the floor next to a skateboard GRIT: a cat laying on a skateboard on the floor GT-2: A small standing next to M2: an elephan two birds in the GRIT: a baby e walking in a fie GT-1: a kitchen with a refrigerator next to a sink. GT-2: a red bucket sits in a sink next to an open refrigerator M2: an open refrigerator with the door open in a kitchen GRIT: a kitchen with a sink and an open refrigerator GT-1: a woman luggage past an GT-2: a woman suitcase past a f M2: a person rid down a street w GRIT: a person suitcase next to GT-1: a small teddy bear is wedged into an opening in a car dashboard GT-1: horses ra track with jocke GT-2: a group o BHSPVQPGKPDLF POB BMJUUMFHJSMCSVTIJOHIFSIBJS XJUIBCSVTI V&L [ECCVʼ20, IJCAIʼ21, ECCVʼ22]
  2. 6 Vision and Language:Text-to-image generation “An astronaut riding a horse

    in a photorealistic style” DALL-E 2 [Ramesh+, 2022]
  3. 7 Vision and Language:Text-to-image generation “a shiba inu wearing a

    beret and black turtleneck” DALL-E 2 [Ramesh+, 2022]
  4. • ついに,テキストと「画像」の⼊⼒が可能に • つまり,V&Lの問題を解ける 8 GPT-4の登場 [OpenAI, 2023] The unusual

    thing about this image is that a man is ironing clothes on an ironing board attached to the roof of a moving taxi. GPT-4 以降,22pageまでの図はhttps://openai.com/research/gpt-4 から引⽤
  5. 9 GPT-4の衝撃 [OpenAI+, 2023] [OpenAI, 2023] Human ͜ͷࣸਅͷ͓΋͠Ζ͍ͱ͜Ζ͸ ͳΜͰ͔͢ʁ ύωϧ͝ͱʹઆ໌ͯ͠Լ͍͞ɽ

    ͜ͷը૾͸ɺʮϥΠτχϯάέʔϒϧʯ ΞμϓλͷύοέʔδΛ͓ࣔͯ͠Γɺ ͭͷύωϧ͕͋Γ·͢ɻ
  6. 10 GPT-4の衝撃 [OpenAI+, 2023] [OpenAI, 2023] ύωϧɿ εϚʔτϑΥϯͷॆిϙʔτʹ઀ଓ ͞Εͨ7("ίωΫλʢେ͖ͯ͘੨৭ ͷϐϯίωΫλͰɺ௨ৗ͸ίϯ

    ϐϡʔλϞχλʔ༻ʣ͕ඳ͔Ε͍ͯ ·͢ɻ ※ GPT-4の英語による回答を GPT-4で⽇本語に翻訳しています
  7. • 画像からだけではわからない知識が獲得されている • こういった知識は標準的なV&L⽤のデータセットだけでは獲得できない 20 個⼈的な所感 Panel 1: A smartphone

    with a VGA connector (a large, blue, 15-pin connector typically used for computer monitors) plugged into its charging port. • この画像だけからでは,VGAが 15-pinのケーブルであることは 判断できない • VGAがPCモニター⽤のものとして 使⽤されているという知識も
  8. 動画説明⽂の⽣成タスク [Rohrbach+, IJCVʼ17] 31 Large Scale Movie Description Challenge (LSMDC)

    Someone, back in elf guise, is trying to calm the kids. Someone grabs a vodka bottle standing open on the counter and liberally pours some on the hand. [Rohrbach+, IJCVʼ17] から引⽤
  9. とりあえず考えうる候補は3つ 35 GPT-4のアーキテクチャは? (※勝⼿な予想) Encoder Decoder DBQUJPO Encoder-Decoder型 • Encoder部分で画像情報と

    テキスト情報を結合して⼊⼒ • PaLI [Chen+, arXiv:2209.06794] ViT Decoder ViT DBQUJPO Decoder型 • ViTで抽出した画像特徴と テキスト情報をDecoderへ ⼊⼒ • GIT [Wang+, arXiv:22015.14100] ViT Text encoder Decoder DBQUJPO • Decoder部分で画像情報を⼊⼒ • CoCa [Yu+, TMLRʼ22] Separate型
  10. 37 Transformer Encoder / ViT Encoderは下記の基本素⼦から構成される • 単語・位置埋め込み • ⾃⼰注意機構(Self

    Attention) • 層正規化(Layer normalization) • フィードフォワード層(FFN) • 残差結合(Residual connection) Word/Position embedding Self Attention Layer norm FFN 𝑋 Layer norm × 𝐿 𝑵⼊⼒𝑵出⼒の特徴変換器
  11. 38 Transformer Decoder Decoderは下記の基本素⼦から構成される • ⾃⼰注意機構(Self Attention) • 層正規化(Layer normalization)

    • クロス注意機構(Cross Attention) • フィードフォワード層(FFN) • 残差結合(Residual connection) Layer norm Layer norm × 𝐿 Self Attention Layer norm Cross Attention FFN 𝑄 𝐾, 𝑉 𝑵⼊⼒𝟏出⼒の⽣成器
  12. 下記の8つのタスクを⾔語モデルの枠組みで解く • Span corruption on text-only data • Split-captioning •

    Image Captioning • OCR • English and Cross-Lingual VQA • English and Cross-Lingual visual question generation • English-only Object-Aware VQA • Object detection 40 PaLI:事前学習内容
  13. 下記の8つのタスクを⾔語モデルの枠組みで解く • Span corruption on text-only data • Split-captioning •

    Image Captioning • OCR • English and Cross-Lingual VQA • English and Cross-Lingual visual question generation • English-only Object-Aware VQA • Object detection 41 PaLI:事前学習内容 𝐿 = # !"# $%# 𝐶𝐸 𝑦! , 𝑝 𝑦! | 𝐼, 𝑦& , 𝑗 = 0, … , 𝑖 − 1 次単語𝑦! とのクロスエントロピー損失 画像𝐼と𝑖 − 1番⽬までの単語𝑦" よる次単語予測確率
  14. テキストの⼀部を特殊トークンに置換し,置換されたトークンを予測 42 事前学習例:Span corruption on text-only data Encoder Decoder ViT

    5IBOLZPVGPSJOWJUJOH NFUPZPVSQBSUZMBTU XFFL 原⽂ 5IBOLZPV9 NFUPZPVSQBSUZ: XFFL 9 GPS GPS JOWJUJOH : MBTU MBTU ;
  15. • いわゆる下記のような⼀般的なAGIの定義を意味しているわけではない • 完全である • ⼈間ができるあらゆることができる など • この論⽂内では,1994年に52名の⼼理学者が定義した知能のことを指す[*] •

    a very general mental capability that, among other things, involves the ability to reason, plan, solve problems, think abstractly, comprehend complex ideas, learn quickly and learn from experience • だが,そもそもAGIの定義⾃体が難しいとも⾔及している • この論⽂の趣旨は「GPT-4はどんなことができて,どんなことができないか」 を共有すること 47 タイトルに「AGI」が⼊っているが [*] Linda S Gottfredson. Mainstream science on intelligence: An editorial with 52 signatories, history, and bibliography, 1997
  16. • 現在の機械学習分野における,いわゆるベンチマークを⽤いた評価⽅法は 適していない • GPT-4の詳細な学習データが不明であるため,テストデータもしくは酷似したデータが 学習データに含まれている可能性を排除できない • 既存のベンチマークでは,GPT-4のような汎⽤性の⾼い⼿法を適切に評価できない 48 GPT-4の評価⽅法について

    • そこで,本論⽂では⼈間の創造性や好奇⼼をベースにした(主観的な)評価を ⽤いる • 丸覚えでは対応できないような斬新かつ幅広い知識を必要とするタスクが解けるか どうかをみる(定量的には評価しない(できない)) • 特に,異なるドメイン知識が複数必要なタスクを解かせてみて,より⼀般的な知能が 獲得されているかをみる • 例:「韻を踏ませながら数学の証明をさせる」 「ユニコーンを描画するTiKZ(LaTex)コードを書かせる」
  17. • プロンプト • “Produce javascript code which generates random images

    in the style of the painter Kandinsky” • アートとプログラミングという異なる分野の能⼒を適切に使いこなしている ことがわかる 50 例:アートを出⼒するコード⽣成 Composition 8, art by Wassily Kandinsky GPT-4 chatGPT
  18. • ものすごい簡単な演算も普通に間違える • [0,9]の数字をランダムに4つサンプルして,下記のような積和計算をさせると, 58%しか正答できなかった • [10, 19]で試すと,正答率は16% • このようなタイプの問題に対しては,途中結果の保持がうまくできない

    • “Letʼs think step by step to solve the expression, write down all the intermediate the steps, and only then produce the final solution.” のようなプロンプトで改善可能ではある 62 演算に関しては特に苦⼿ 演算問題に対しては,ワーキングメモリが ものすごく⼩さくなる?
  19. • 得意な事:Incremental task • 1単語(1⽂章)ずつ追加することで,徐々に正解に近づいていくような逐次的な タスク • 既存の知識を利⽤する,思考の⼤きな⾶躍が不必要なタスク • いわゆる「fast

    thinking」とか「System 1」 • 例:⽂書要約,質疑応答など 65 GPT-4の得意なこと・苦⼿なこと • 苦⼿な事:Discontinuous task • 解決が連続的に⾏われるのではなく不連続な思考の⾶躍を必要とするタスクや プランニングを必要とするタスク • いわゆる「slow thinking」とか「System 2」 • 例:ジョークや謎かけを⽣み出す,科学的仮説を思いつくなど
  20. • Confidence calibration • Long-term memory • Continual learning •

    Personalization • Planning and conceptual leaps • Transparency, interpretability and consistency • Cognitive fallacies and irrationality • Challenges with sensitivity to inputs 66 より汎⽤的なAIへの道標
  21. • 実はV&Lの研究ではいくつか提案されている • 典型的なのは,OKVQA(Outside Knowledge VQA)[Marino+, CVPRʼ19] [Schewenk+, 2022] のための⼿法

    69 LLMをVQAモデルに組み込む [Schewenk+, A-OKVQA, 2022] Q. What does the man who sits have trouble doing? A. Walking ⾞椅⼦を利⽤している⼈は歩くことが 困難であるという知識が必要
  22. • 実はV&Lの研究ではいくつか提案されている • 典型的なのは,OKVQA(Outside Knowledge VQA)[Marino+, CVPRʼ19] [Schewenk+, 2022] のための⼿法

    70 LLMをVQAモデルに組み込む [Schewenk+, A-OKVQA, 2022] 折りたたみ椅⼦の知識が必要 Q. What makes those chairs easy to carry? A. Foldable
  23. • GPT-3がもっている知識を [質問⽂,物体,画像キャプション,例⽰] で抽出 • 同時に,CLIPを⽤いてWikidataからも情報を検索 71 GPT-3を利⽤したOK-VQA [Gui+, NACCLʼ22]

    物体検出 CLIP Transformer Encoder Transformer Decoder (15 画像キャプ ション⽣成 Q.What does the man who sits have trouble doing? A. walk
  24. 1.画像エンコーダを固定して,変換器を学習 • Image-text contrastive learning • Image-grounded text generation •

    Image-text matching 75 BLIPv2の概要 4FMGBUUFO $SPTTBUUFO ''/ 4FMGBUUFO ''/ ×𝐿 ×𝐿 Image-text matching loss text generation loss JOQVUUFYU contrastive loss Image Encoder 変換器 -FBSOBCMFRVFSJFT
  25. • モデルサイズの軽量化 • LLaMA [Touvron+, arXiv:2302.13971] :13BサイズのモデルでGPT-3(175B)を上回り, 65BモデルでChinchilla(70B)やPaLM(540B)と同等 • そのかわり,1.4

    trillion tokenで学習(GPT-3は0.3 trillion token) • LLMの量⼦化[*]:MacbookでLLMが動作可能 78 LLMの軽量化 • 学習データセットの軽量化 • オーダーが2桁〜3桁⼩さいデータセットでも,フルサイズで学習したモデルの90%の 性能レベルを達成可能 [Suzuki+, Information Processing & Management, 2023] [*] : https://github.com/ggerganov/llama.cpp
  26. • one-hotベクトルでは表現しきれない柔軟かつ膨⼤な概念を学習可能 • 数や形容詞の情報なども⼀緒に学習可能 • アノテーションコストが低い • Web上の画像・altテキストペアをもってくるだけ 82 ⾃然⾔語による画像認識のメリット

    これまでの画像分類 CLIP 「有限個のクラスID Xの何か」 one-hotベクトルよりも圧倒的な情報量との関連付けが可能に l"CSPXOEPHJTTJUUJOHPOUIFHSBTTz 何を意味しているのか 理解していない
  27. 89 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23] ポイント • 様々なタスクかつ未知タスクに適応で きるように,バイアスパラメータだけ はタスクごとに⽤意 •

    メタ学習時に少数事例(サポート画像) を⽤いて,バイアスだけ最適化する • [Zaken+, ACLʼ22], [Cai, NeurIPSʼ20]
  28. 学習⽅法 • 学習セットからクエリセットとサポートセットをサンプルし,サポートセットを⽤いて クエリ画像のラベルを正しく予測するように,モデルを学習 93 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23] 推論 •

    テストセットのサポートセットを⽤いて,バイアスのみをファインチューニング • その後,テストセットのクエリ画像を予測 バイアスのファインチューニングは⾮常に重要
  29. LLMを基盤技術と考えて,その上で何ができるかを考えるのも重要 • 効率的・効果的なファインチューニング • 解きたいタスクの知識をどうやって注⼊するか • 学習・推論の軽量化 • より適切なベンチマーク・評価⽅法の確⽴ •

    理論解析 95 まとめ LLMに代わる新しい技術の提案 • (私のような)研究者はむしろこっちの⽅向性も • Transformerで本当に良いのか • next-word predictionで本当に良いのか