Data Is All You Need

Data Is All You Need 株式会社Elith CEO & CTO Koki
Inoue

LLMの学習データ一般利用可能なオープンソースデータセット • CommonCrawl：3.3TB ◦ Webサイトからアーカイブされた多言語データセット • Colossal Clean Crawled
Corpus(C4)：783GB ◦ Googleによりクリーンに処理された CommonCrawlデータセット • Github：328GB ◦ Apach, BSD, MITライセンスで配布されるプロジェクトを対象 • ArXiv：92GB ◦ 170万件のArXiv論文から構成 • Gutenberg , Books3：85GB ◦ Gutenberg：パブリックドメインの電子書籍 (100,000以上のタイトル)から構成 ◦ Book3：197.000冊の電子書籍から • Stack Exchange：78GB ◦ Stack Overflowの質問・回答から構成 2 日本語LLM学習への応用方法 • 和訳 • 日本語テキストだけの利用 ◦ cc-100, mC4等

LIMA: Less Is More for Alignment LIMAは750,000tokensの学習データで良い性能を出した • LIMAはLLaMa 65Bをファインチューニングしたもの
• ドメインの多様性を確保し、高品質なデータを利用 3 合計 1,000例

Textbooks Are All You Need コード生成タスクにおいて、少量の高品質データと小さいモデルサイズで高性能モデルが作成できる • ネットで集めたドキュメントがしっかりした高品質データセット
: 6B tokens • GPT-3.5で生成した高品質データセット : 1B tokens程度 • Pythonの演習と回答のデータセット : 180M tokens程度 4

Llama 2: Open Foundation and Fine-Tuned Chat Models 教師あり学習 •
アノテーターに依頼し高品質データ 27,540件を作成し学習(Supervised Fine-Tuning (SFT)) 5

データアノテーション市場 6 • 海外のアノテーション市場は $1,545Mから$13,922M（9倍）まで大きくなる • 日本のアノテーション市場は $73Mから$1,363M（18倍）まで大きくなる

まとめ性能の良いモデルを作成するためにはデータは不可欠である。紹介した3つ論文から ①少数の高品質データ、② LLMから生成したデータを利用することでより性能の良い LLM開発ができる可能性がある。これからはプレイヤーとして、 LLMのデータアノテーション領域が熱い。強いLLMプレイヤーはデータアノテーション事業者にもなり得る。
Data Is All You Need。 7

Data Is All You Need

Data Is All You Need

Elith

More Decks by Elith

Other Decks in Technology

Featured

Transcript

Data Is All You Need 株式会社Elith CEO & CTO Koki

LLMの学習データ一般利用可能なオープンソースデータセット • CommonCrawl：3.3TB ◦ Webサイトからアーカイブされた多言語データセット • Colossal Clean Crawled

LIMA: Less Is More for Alignment LIMAは750,000tokensの学習データで良い性能を出した • LIMAはLLaMa 65Bをファインチューニングしたもの

Textbooks Are All You Need コード生成タスクにおいて、少量の高品質データと小さいモデルサイズで高性能モデルが作成できる • ネットで集めたドキュメントがしっかりした高品質データセット

Llama 2: Open Foundation and Fine-Tuned Chat Models 教師あり学習 •

データアノテーション市場 6 • 海外のアノテーション市場は $1,545Mから$13,922M（9倍）まで大きくなる • 日本のアノテーション市場は $73Mから$1,363M（18倍）まで大きくなる