Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data Is All You Need

Elith
September 07, 2023

Data Is All You Need

Elith

September 07, 2023
Tweet

More Decks by Elith

Other Decks in Technology

Transcript

  1. LLMの学習データ 一般利用可能なオープンソースデータセット • CommonCrawl:3.3TB ◦ Webサイトからアーカイブされた多言語データセット • Colossal Clean Crawled

    Corpus(C4):783GB ◦ Googleによりクリーンに処理された CommonCrawlデータセット • Github:328GB ◦ Apach, BSD, MITライセンスで配布されるプロジェクトを対象 • ArXiv:92GB ◦ 170万件のArXiv論文から構成 • Gutenberg , Books3:85GB ◦ Gutenberg:パブリックドメインの電子書籍 (100,000以上のタイトル)から構成 ◦ Book3:197.000冊の電子書籍から • Stack Exchange:78GB ◦ Stack Overflowの質問・回答から構成 2 日本語LLM学習への応用方法 • 和訳 • 日本語テキストだけの利用 ◦ cc-100, mC4等
  2. Llama 2: Open Foundation and Fine-Tuned Chat Models 教師あり学習 •

    アノテーターに依頼し高品質データ 27,540件を作成し学習(Supervised Fine-Tuning (SFT)) 5