Corpus(C4):783GB ◦ Googleによりクリーンに処理された CommonCrawlデータセット • Github:328GB ◦ Apach, BSD, MITライセンスで配布されるプロジェクトを対象 • ArXiv:92GB ◦ 170万件のArXiv論文から構成 • Gutenberg , Books3:85GB ◦ Gutenberg:パブリックドメインの電子書籍 (100,000以上のタイトル)から構成 ◦ Book3:197.000冊の電子書籍から • Stack Exchange:78GB ◦ Stack Overflowの質問・回答から構成 2 日本語LLM学習への応用方法 • 和訳 • 日本語テキストだけの利用 ◦ cc-100, mC4等