Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMの事前学習のためのテキストデータの収集と構築
Search
Shun Kiyono
February 12, 2025
0
660
LLMの事前学習のためのテキストデータの収集と構築
第13回 Data-Centric AI勉強会 ~Data-centric AI入門 著者LT大会
Shun Kiyono
February 12, 2025
Tweet
Share
More Decks by Shun Kiyono
See All by Shun Kiyono
[SNLP2024] Tuning Language Models by Proxy
butsugiri
0
360
より良いTransformerをつくる
butsugiri
35
12k
Reservoir Transformers
butsugiri
0
700
Increasing number of attempts ver. 2021
butsugiri
168
140k
機械翻訳コンペティション参加報告
butsugiri
6
2.5k
[SNLP2020] The Curious Case of Neural Text Degeneration
butsugiri
1
530
大規模疑似データを用いた高性能文法誤り訂正モデルの構築
butsugiri
0
610
[SNLP2019] Generalized Data Augmentation for Low-Resource Translation
butsugiri
0
400
Deep Contextualized Word Representations
butsugiri
0
700
Featured
See All Featured
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
How to train your dragon (web standard)
notwaldorf
91
5.9k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
227
22k
It's Worth the Effort
3n
184
28k
GraphQLとの向き合い方2022年版
quramy
45
14k
The Invisible Side of Design
smashingmag
299
50k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
8
700
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
30k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.4k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.5k
Rebuilding a faster, lazier Slack
samanthasiow
80
8.9k
Reflections from 52 weeks, 52 projects
jeffersonlam
349
20k
Transcript
テキストデータの収集と構築 清野 舜 @shunkiyono LLMの事前学習のための
テキストデータの収集と構築:概要図 2
言語モデルとは何か • 文書の「自然言語らしさ」を計算するためのモデル • 次の単語を予測できるように学習させる • 大規模言語モデル(LLM):データ、計算量、パラメータを大規模にした言語モデル 3
大規模言語モデルとスケーリング則 • テストデータの損失は計算量、データ、パラメータを増やすと改善 • 本書のターゲット:データ 4 Kaplan, Jared, et al.
"Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).
どれくらいのデータが欲しい? • Llama2は2Tトークンを用いて学習 • Llama3では更に多い • 英語版のWikipediaを3Bトークンとすると、〜700個必要 • ヒント:Wikipediaは700個もない •
Webデータを使うことになる 5
再掲:テキストデータの収集と構築 6
問題①:データをどうやって大規模に集めるか? • CommonCrawlはWebのクローリング結果を定期的に公開 • ほとんどのLLMが利用 • HTMLからの本文抽出方法は非自明 • CommonCrawl側で本文抽出済みのデータ:低品質 •
metaはllama3のためにHTMLパーザを内製 • llama3の論文で一番スゴいのはここだと思っている 7
問題②:Webデータはノイズだらけ • その他,成人向けのコンテンツや広告が特に多い • 本書ではノイズを除去する方法を網羅的に解説 8
問題③:Webデータは重複だらけ • Webデータには多くの重複が存在 • MITやApacheなどのライセンス条文 • 一箇所の単語を変えた広告 • 「{宮城, 長崎,
青森} 県での引越しなら…」 • ブログサービスの初期定型文 • etc • 重複はLLMの学習に悪影響 • 文書間で単語の一致率を計算し,類似するものは削除 • 近似アルゴリズムの手を借りる • 詳細は本書で解説 9
まとめ • LLMの事前学習のためのテキストデータの収集と構築 • LLMとは言語モデルを大規模にしたもの • LLMの事前学習にはたくさんのデータが必要 • Webにはたくさんのデータがあるが,ノイズだらけ •
たくさん&高品質なデータの集め方は自明ではない • ぜひ本書の購入をご検討ください! 10