CCC winter 2022 基盤モデル

CCC WINTER 2022 基盤モデル藤井亮宏

Foundation Model 基盤モデル

基盤モデルとは？「大規模データセットで学習した巨大なモデルで、あらゆるタスクやアプリケーションに対応できる」というモデル 3 Bommasani et al., On the Opportunities
and Risks of Foundation Models. 2021 https://gpt3demo.com/apps/gpt3-play 基盤モデルの概念図基盤モデルの代表例：GPT-3

【疑問】ただの「でかい学習済みモデル」じゃないの？技術上はその通り。しかし影響力など（要確認）を考慮して命名 4 自己教師あり学習マルチタスク学習マルチモーダル学習済みモデル基盤モデル (foundation model)
多くの概念を含んだ革新性を示すために「基盤モデル (foundation model) 」という語を導入

基盤モデルの重要な概念「創発」と「均質化」 5 創発 (Emergence) 均質化 (Homogenization) 明示的にシステムが示されることなく、データから暗黙的に（モデルが自発的に）構築されること
共通のシステム構築の方法が幅広く用いられていること学習中に提示されていないことができる GPT-3 の zero-shot 言語画像点群動画分子 Transformer モデルで処理可能 Brown, et al., Language Models are Few-Shot Learners. 2020

創発と均質化が機械学習の歴史の中で進んでいく機械学習が発展して基盤モデルを可能にする「創発」と「均質化」レベルにまで到達 6 Bommasani et al., On the Opportunities
and Risks of Foundation Models. 2021

ソフト・ハード両面の進化で大規模モデルが現実に基盤モデルを実現可能にした3つの要素 7 1. ハードウェア能力の向上４年で計算量が10倍になるほど性能が向上した 2. トランスフォーマモデルの発明多くのデータに使える汎用的なアーキテクチャ 3.
大規模データの利活用自己教師あり学習などアノテーションが不要な学習方法が登場

4年でGPUのスループットは10倍になった。 ①ハードウェア能力の向上 8 • モデルは2年で数千倍のサイズに大規模化 • ハードウェアもそれに対応できるように進化 Bommasani
et al., On the Opportunities and Risks of Foundation Models. 2021

学習データの規模が大きくなるほど、性能が良くなる傾向にある ②大規模データの利活用 9 • 深層学習モデルは学習データサイズが大きくなるほど性能が良くなる • しかし、アノテーション付きデータを大量に得ることは
コスト的に難しい Dosovitskiy et al., An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale . ICLR 2021

2つの利用戦略で学習データを増やす大規模データの利用戦略 10 マルチタスク学習アノテーションを使わない学習 Li et al., Towards
a unified foundation model: Jointly pre-training transformers on unpaired images and text. 2021 He et al., Masked Autoencoders Are Scalable Vision Learners. 2021

使用するデータセットの数を多くすることで、学習データを増やすマルチタスク学習 11 Li et al., Towards a unified foundation
model: Jointly pre-training transformers on unpaired images and text. 2021 • 学習するタスクを増やすことで、学習データ量を増やす戦略 • 右図では画像タスクと言語タスク両方をこなしている

データを集めるだけで学習データにできるアノテーションを使わない学習 12 • アノテーションが不要なら、「データを集めるだけ」で学習データを作ることができる • 代表的なものは言語モデル •
次にくる単語を予測することで学習するタスク • GPT-3は言語モデルで大規模データを学習させている (上)自己回帰型言語モデルの定義式 (下)RNNを用いた自己回帰型言語モデル

画像だけで学習できる「自己教師あり学習」が近年急速に発展コンピュータービジョンにおける「アノテーションが不要な」学習 13 • 画像の構造を効果的に学習できるアノテーションなしの学習手法が近年急速に発展 • MAE では画像にマスクをかけて、
マスク部分を復元するような学習を行う • 言語系と同様に、アノテーションを不要とする大量データ活用の基盤が整った He et al., Masked Autoencoders Are Scalable Vision Learners. 2021

あらゆる種類のデータで活躍するモデル ③トランスフォーマモデルの発明 14 • 自己注意機構 (self-attention) で学習するモデル • 2017年に登場して以降、自然言語分野
で活躍。2020年末以来はコンピュータービジョン分野に進出。 • 言語、動画、画像、点群、分子などのデータで成果を出している Vaswani et al., Attention is All You Need. 2017

自己注意機構の特徴自己注意は比較的低い帰納バイアスをもち、多様なデータを扱いやすい 15

大規模データで活躍するトランスフォーマー低い帰納バイアスが大規模データで性能を発揮する要因に 16 Dosovitskiy et al., An Image is
Worth 16x16 Words: Transformers for Image Recognition at Scale . ICLR 2021 データが中規模しかない領域では、 BiT(CNNベースのモデル、強い帰納バイアスをもつ) の方が強いデータが大規模にある領域では、ViT (弱い帰納バイアスをもつ) の方が強い

大量の言語データで学習し、ゼロショットで多様なタスクに取り組める基盤モデル : GPT-3 17 • 「言葉で」タスクを明示することにより、言語モデルの枠組みで推論が可能 •
微調整 (fine-tune) をすることなしにさまざまなタスクへ取り組める • 「創発」により学習中で明示されていないタスクで活用可能 Brown, et al., Language Models are Few-Shot Learners. 2020

多くのアプリケーションで利用されている GPT-3の影響力 18 • 発表から1年経過時点 (2021年5 月) で300ほどのアプリケーションで利用されている •
産業、教育、ゲームなど用途はさまざま https://openai.com/blog/gpt-3-apps/ 顧客理解に利用しているViable社

フローレンスを解説する Computer Vision 系の基盤モデル 19 「時間」「多種データ出力」「空間」の3要素の拡張に対応できる Florence (Yuan el
al., 2021)

データセットに由来する公平性や偏見の問題がある基盤モデルの問題点 20 Brown, et al., Language Models are Few-Shot
Learners. 2020

法律上の問題 21 • インターネットで収集したデータの問題点 • 学習データセットの著作権・肖像権周辺や、それを使って学習したモデルはどのように扱えばよいのかが定まっていない • 米国では、サーバーに「許可なく」アクセスした場合は違法。しかし、「許可」の解釈の仕方による
• 出力値の責任問題所在 • 基盤モデルを微調整したモデルで出力をし、その出力が致命的な間違いを犯した場合、自動運転や医療診断では大きなきな損害がでる • 基盤モデルの提供者、微調整した組織、どちらに責任があるのかが定まっていない

コンピュータービジョンと基盤モデルの個人的見解 22

CVデータ「だけ」で基盤モデルに成り得るのか？ 23

【疑問】 CVタスクだけで、「アプリケーション」になるのか？ 24 l Florence のように、さまざまな CV タスクに対応できるモデルが登場している
l しかし、 CV タスクだけで「ある目的を達成するためのアプリケーション」にまで到達できるのか？ Bommasani et al., On the Opportunities and Risks of Foundation Models. 2021 基盤モデルの概念図

実務的なソフトを構築するという観点でみると？ CVだけで完結する実務タスクはそこまで多くない 25 物体検知・意味的領域分割骨格検知言語系タスク（単体で完結するタスクがある）翻訳コードを書く Q&A
CV系タスク（モジュール要素が強い）人と物体との衝突を避けるアルゴリズム骨格情報から歩行姿勢の正常/異常を判断 https://www.analyticssteps.com/blogs/introduction-yolov4 https://www.researchgate.net/figure/Sample-keypoint-detection-result-of- an-image-from-subject-F-during-toe-tapping-task-Note_fig4_339641684 バスケがしたいです → I Want To Play Basketball 【Q】大学院生は新制度の支援対象になりますか【A】大学院生は対象になり… 【Task】 python で◯◯をスクレイピングしたい【Code】 import bs4 ….

タスクの種類と創発タスクが固定だと「創発」が現れにくい？ 26 GPT-3 の創発 Florence 学習中に提示されていないことができる GPT-3 の
zero-shot 強力な学習済みモデルで多くをこなせるが、できることは固定されている Yuan el al., Florence: A new foundation model for computer vision. 2021 Brown, et al., Language Models are Few-Shot Learners. 2020

CV系基盤モデルは「ナシ」なのか？言語処理系と組み合わせることで、さらに強力になる 27 • 右図はテキスト条件付きの拡散生成モデル • テキストでタスクを指定することで、多種多様なタスク指定が可能になる
• 「創発」により学習データにない非現実的な概念でも生成可能になる Saharia et al., Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. 2022

基盤モデルのまとめ 28 • 基盤モデルは色々なタスクに利用できる大規模なモデル • トランスフォーマーの発明、ハードウェアの進化、大規模データ学習戦略の発展の３要素で実現できた • 法律上の問題や、データセットに由来する公平性の問題が課題 •
CV だけでなく言語を組み合わせることで様々な動画像タスクに応用が可能になる？

CCC winter 2022 基盤モデル

CCC winter 2022 基盤モデル

tosei_akira

Other Decks in Science

Featured

Transcript