Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CCC winter 2022  基盤モデル

tosei_akira
December 13, 2022

CCC winter 2022  基盤モデル

CCC winter 2022 で講演した基盤モデルについての資料

tosei_akira

December 13, 2022
Tweet

Other Decks in Science

Transcript

  1. 基盤モデルの重要な概念 「創発」と「均質化」 5 創発 (Emergence) 均質化 (Homogenization) 明示的にシステムが示されることな く、データから暗黙的に(モデルが自 発的に)構築されること

    共通のシステム構築の方法が幅広く 用いられていること 学習中に提示されていないことができる GPT-3 の zero-shot 言語 画像 点群 動画 分子 Transformer モデルで処理可能 Brown, et al., Language Models are Few-Shot Learners. 2020
  2. 2つの利用戦略で学習データを増やす 大規模データの利用戦略 10 マルチタスク学習 アノテーションを 使わない学習 Li et al., Towards

    a unified foundation model: Jointly pre-training transformers on unpaired images and text. 2021 He et al., Masked Autoencoders Are Scalable Vision Learners. 2021
  3. 使用するデータセットの数を多くすることで、学習データを増やす マルチタスク学習 11 Li et al., Towards a unified foundation

    model: Jointly pre-training transformers on unpaired images and text. 2021 • 学習するタスクを増やす ことで、学習データ量を 増やす戦略 • 右図では画像タスクと言 語タスク両方をこなして いる
  4. データを集めるだけで学習データにできる アノテーションを使わない学習 12 • アノテーションが不要なら、「データを 集めるだけ」で学習データを作ることが できる • 代表的なものは言語モデル •

    次にくる単語を予測することで学習するタスク • GPT-3は言語モデルで大規模データを学習させている (上)自己回帰型言語モデルの定義式 (下)RNNを用いた自己回帰型言語モデル
  5. 画像だけで学習できる「自己教師あり学習」が近年急速に発展 コンピュータービジョンにおける「アノテーションが不要な」学習 13 • 画像の構造を効果的に学習でき るアノテーションなしの学習手法 が近年急速に発展 • MAE では画像にマスクをかけて、

    マスク部分を復元するような学習 を行う • 言語系と同様に、アノテーションを 不要とする大量データ活用の基 盤が整った He et al., Masked Autoencoders Are Scalable Vision Learners. 2021
  6. あらゆる種類のデータで活躍するモデル ③トランスフォーマモデルの発明 14 • 自己注意機構 (self-attention) で学習 するモデル • 2017年に登場して以降、自然言語分野

    で活躍。2020年末以来はコンピューター ビジョン分野に進出。 • 言語、動画、画像、点群、分子などの データで成果を出している Vaswani et al., Attention is All You Need. 2017
  7. 大規模データで活躍するトランスフォーマー 低い帰納バイアスが大規模データで性能を発揮する 要因に 16 Dosovitskiy et al., An Image is

    Worth 16x16 Words: Transformers for Image Recognition at Scale . ICLR 2021 データが中規模しかない領域 では、 BiT(CNNベースのモデ ル、強い帰納 バイアスをもつ) の方が強い データが大規模にある領域で は、ViT (弱い帰納バイアスをも つ) の方が強い
  8. 大量の言語データで学習し、ゼロショットで多様なタスクに取り組める 基盤モデル : GPT-3 17 • 「言葉で」タスクを明示す ることにより、言語モデル の枠組みで推論が可能 •

    微調整 (fine-tune) をす ることなしにさまざまなタ スクへ取り組める • 「創発」により学習中で 明示されていないタスクで 活用可能 Brown, et al., Language Models are Few-Shot Learners. 2020
  9. 多くのアプリケーションで利用されている GPT-3の影響力 18 • 発表から1年経過時点 (2021年5 月) で300ほどのアプリケーショ ンで利用されている •

    産業、教育、ゲームなど用途は さまざま https://openai.com/blog/gpt-3-apps/ 顧客理解に利用しているViable社
  10. 法律上の問題 21 • インターネットで収集したデータの問題点 • 学習データセットの著作権・肖像権周辺や、それを使って学習したモデルはどのように扱え ばよいのかが定まっていない • 米国では、サーバーに「許可なく」アクセスした場合は違法。しかし、「許可」の解釈の仕方に よる

    • 出力値の責任問題所在 • 基盤モデルを微調整したモデルで出力をし、その出力が致命的な間違いを犯した場合、自動 運転や医療診断では大きなきな損害がでる • 基盤モデルの提供者、微調整した組織、どちらに責任があるのかが定まっていない
  11. 【疑問】 CVタスクだけで、「アプリケーション」になるのか? 24 l Florence のように、さまざ まな CV タスクに対応でき るモデルが登場している

    l しかし、 CV タスクだけで 「ある目的を達成するため のアプリケーション」にまで 到達できるのか? Bommasani et al., On the Opportunities and Risks of Foundation Models. 2021 基盤モデルの概念図
  12. 実務的なソフトを構築するという観点でみると? CVだけで完結する実務タスクはそこまで多くない 25 物体検知・意味的領域分割 骨格検知 言語系タスク (単体で完結するタスクがある) 翻訳 コードを書く Q&A

    CV系タスク (モジュール要素が強い) 人と物体との衝突を避 けるアルゴリズム 骨格情報から歩行姿 勢の正常/異常を判断 https://www.analyticssteps.com/blogs/introduction-yolov4 https://www.researchgate.net/figure/Sample-keypoint-detection-result-of- an-image-from-subject-F-during-toe-tapping-task-Note_fig4_339641684 バスケがしたいです → I Want To Play Basketball 【Q】 大学院生は新制度の支援対象になりますか 【A】 大学院生は対象になり… 【Task】 python で◯◯をスクレイピングしたい 【Code】 import bs4 ….
  13. タスクの種類と創発 タスクが固定だと「創発」が現れにくい? 26 GPT-3 の創発 Florence 学習中に提示されていないことができ る GPT-3 の

    zero-shot 強力な学習済みモデルで多くをこなせるが、 できることは固定されている Yuan el al., Florence: A new foundation model for computer vision. 2021 Brown, et al., Language Models are Few-Shot Learners. 2020
  14. CV系基盤モデルは「ナシ」なのか? 言語処理系と組み合わせることで、さらに強力になる 27 • 右図はテキスト条件付きの 拡散生成モデル • テキストでタスクを指定す ることで、多種多様なタスク 指定が可能になる

    • 「創発」により学習データに ない非現実的な概念でも 生成可能になる Saharia et al., Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. 2022