Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMの事前学習のためのテキストデータの収集と構築
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Shun Kiyono
February 12, 2025
940
0
Share
LLMの事前学習のためのテキストデータの収集と構築
第13回 Data-Centric AI勉強会 ~Data-centric AI入門 著者LT大会
Shun Kiyono
February 12, 2025
More Decks by Shun Kiyono
See All by Shun Kiyono
[SNLP2024] Tuning Language Models by Proxy
butsugiri
0
490
より良いTransformerをつくる
butsugiri
36
13k
Reservoir Transformers
butsugiri
0
820
Increasing number of attempts ver. 2021
butsugiri
169
150k
機械翻訳コンペティション参加報告
butsugiri
6
2.6k
[SNLP2020] The Curious Case of Neural Text Degeneration
butsugiri
1
600
大規模疑似データを用いた高性能文法誤り訂正モデルの構築
butsugiri
0
650
[SNLP2019] Generalized Data Augmentation for Low-Resource Translation
butsugiri
0
440
Deep Contextualized Word Representations
butsugiri
0
760
Featured
See All Featured
Leo the Paperboy
mayatellez
7
1.7k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
69
39k
How to train your dragon (web standard)
notwaldorf
97
6.6k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
120
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
320
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
340
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
100
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.4k
The Curious Case for Waylosing
cassininazir
0
310
Transcript
テキストデータの収集と構築 清野 舜 @shunkiyono LLMの事前学習のための
テキストデータの収集と構築:概要図 2
言語モデルとは何か • 文書の「自然言語らしさ」を計算するためのモデル • 次の単語を予測できるように学習させる • 大規模言語モデル(LLM):データ、計算量、パラメータを大規模にした言語モデル 3
大規模言語モデルとスケーリング則 • テストデータの損失は計算量、データ、パラメータを増やすと改善 • 本書のターゲット:データ 4 Kaplan, Jared, et al.
"Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).
どれくらいのデータが欲しい? • Llama2は2Tトークンを用いて学習 • Llama3では更に多い • 英語版のWikipediaを3Bトークンとすると、〜700個必要 • ヒント:Wikipediaは700個もない •
Webデータを使うことになる 5
再掲:テキストデータの収集と構築 6
問題①:データをどうやって大規模に集めるか? • CommonCrawlはWebのクローリング結果を定期的に公開 • ほとんどのLLMが利用 • HTMLからの本文抽出方法は非自明 • CommonCrawl側で本文抽出済みのデータ:低品質 •
metaはllama3のためにHTMLパーザを内製 • llama3の論文で一番スゴいのはここだと思っている 7
問題②:Webデータはノイズだらけ • その他,成人向けのコンテンツや広告が特に多い • 本書ではノイズを除去する方法を網羅的に解説 8
問題③:Webデータは重複だらけ • Webデータには多くの重複が存在 • MITやApacheなどのライセンス条文 • 一箇所の単語を変えた広告 • 「{宮城, 長崎,
青森} 県での引越しなら…」 • ブログサービスの初期定型文 • etc • 重複はLLMの学習に悪影響 • 文書間で単語の一致率を計算し,類似するものは削除 • 近似アルゴリズムの手を借りる • 詳細は本書で解説 9
まとめ • LLMの事前学習のためのテキストデータの収集と構築 • LLMとは言語モデルを大規模にしたもの • LLMの事前学習にはたくさんのデータが必要 • Webにはたくさんのデータがあるが,ノイズだらけ •
たくさん&高品質なデータの集め方は自明ではない • ぜひ本書の購入をご検討ください! 10