LLMの事前学習のためのテキストデータの収集と構築

テキストデータの収集と構築清野舜 @shunkiyono LLMの事前学習のための

テキストデータの収集と構築：概要図 2

言語モデルとは何か • 文書の「自然言語らしさ」を計算するためのモデル • 次の単語を予測できるように学習させる • 大規模言語モデル（LLM）：データ、計算量、パラメータを大規模にした言語モデル 3

大規模言語モデルとスケーリング則 • テストデータの損失は計算量、データ、パラメータを増やすと改善 • 本書のターゲット：データ 4 Kaplan, Jared, et al.
"Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).

どれくらいのデータが欲しい？ • Llama2は2Tトークンを用いて学習 • Llama3では更に多い • 英語版のWikipediaを3Bトークンとすると、〜700個必要 • ヒント：Wikipediaは700個もない •
Webデータを使うことになる 5

再掲：テキストデータの収集と構築 6

問題①：データをどうやって大規模に集めるか？ • CommonCrawlはWebのクローリング結果を定期的に公開 • ほとんどのLLMが利用 • HTMLからの本文抽出方法は非自明 • CommonCrawl側で本文抽出済みのデータ：低品質 •
metaはllama3のためにHTMLパーザを内製 • llama3の論文で一番スゴいのはここだと思っている 7

問題②：Webデータはノイズだらけ • その他，成人向けのコンテンツや広告が特に多い • 本書ではノイズを除去する方法を網羅的に解説 8

問題③：Webデータは重複だらけ • Webデータには多くの重複が存在 • MITやApacheなどのライセンス条文 • 一箇所の単語を変えた広告 • 「{宮城, 長崎,
青森} 県での引越しなら…」 • ブログサービスの初期定型文 • etc • 重複はLLMの学習に悪影響 • 文書間で単語の一致率を計算し，類似するものは削除 • 近似アルゴリズムの手を借りる • 詳細は本書で解説 9

まとめ • LLMの事前学習のためのテキストデータの収集と構築 • LLMとは言語モデルを大規模にしたもの • LLMの事前学習にはたくさんのデータが必要 • Webにはたくさんのデータがあるが，ノイズだらけ •
たくさん＆高品質なデータの集め方は自明ではない • ぜひ本書の購入をご検討ください！ 10

LLMの事前学習のためのテキストデータの収集と構築

LLMの事前学習のためのテキストデータの収集と構築

Shun Kiyono

More Decks by Shun Kiyono

Featured

Transcript

テキストデータの収集と構築清野舜 @shunkiyono LLMの事前学習のための

テキストデータの収集と構築：概要図 2

言語モデルとは何か • 文書の「自然言語らしさ」を計算するためのモデル • 次の単語を予測できるように学習させる • 大規模言語モデル（LLM）：データ、計算量、パラメータを大規模にした言語モデル 3

大規模言語モデルとスケーリング則 • テストデータの損失は計算量、データ、パラメータを増やすと改善 • 本書のターゲット：データ 4 Kaplan, Jared, et al.

どれくらいのデータが欲しい？ • Llama2は2Tトークンを用いて学習 • Llama3では更に多い • 英語版のWikipediaを3Bトークンとすると、〜700個必要 • ヒント：Wikipediaは700個もない •

再掲：テキストデータの収集と構築 6

問題①：データをどうやって大規模に集めるか？ • CommonCrawlはWebのクローリング結果を定期的に公開 • ほとんどのLLMが利用 • HTMLからの本文抽出方法は非自明 • CommonCrawl側で本文抽出済みのデータ：低品質 •

問題②：Webデータはノイズだらけ • その他，成人向けのコンテンツや広告が特に多い • 本書ではノイズを除去する方法を網羅的に解説 8

問題③：Webデータは重複だらけ • Webデータには多くの重複が存在 • MITやApacheなどのライセンス条文 • 一箇所の単語を変えた広告 • 「{宮城, 長崎,

まとめ • LLMの事前学習のためのテキストデータの収集と構築 • LLMとは言語モデルを大規模にしたもの • LLMの事前学習にはたくさんのデータが必要 • Webにはたくさんのデータがあるが，ノイズだらけ •