Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMの事前学習のためのテキストデータの収集と構築
Search
Shun Kiyono
February 12, 2025
0
730
LLMの事前学習のためのテキストデータの収集と構築
第13回 Data-Centric AI勉強会 ~Data-centric AI入門 著者LT大会
Shun Kiyono
February 12, 2025
Tweet
Share
More Decks by Shun Kiyono
See All by Shun Kiyono
[SNLP2024] Tuning Language Models by Proxy
butsugiri
0
380
より良いTransformerをつくる
butsugiri
35
12k
Reservoir Transformers
butsugiri
0
710
Increasing number of attempts ver. 2021
butsugiri
168
140k
機械翻訳コンペティション参加報告
butsugiri
6
2.5k
[SNLP2020] The Curious Case of Neural Text Degeneration
butsugiri
1
530
大規模疑似データを用いた高性能文法誤り訂正モデルの構築
butsugiri
0
610
[SNLP2019] Generalized Data Augmentation for Low-Resource Translation
butsugiri
0
400
Deep Contextualized Word Representations
butsugiri
0
710
Featured
See All Featured
Making Projects Easy
brettharned
116
6.2k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
24
2.7k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
129
19k
Code Review Best Practice
trishagee
68
18k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
The Invisible Side of Design
smashingmag
299
50k
Building an army of robots
kneath
305
45k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
105
19k
Designing for humans not robots
tammielis
253
25k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.3k
Transcript
テキストデータの収集と構築 清野 舜 @shunkiyono LLMの事前学習のための
テキストデータの収集と構築:概要図 2
言語モデルとは何か • 文書の「自然言語らしさ」を計算するためのモデル • 次の単語を予測できるように学習させる • 大規模言語モデル(LLM):データ、計算量、パラメータを大規模にした言語モデル 3
大規模言語モデルとスケーリング則 • テストデータの損失は計算量、データ、パラメータを増やすと改善 • 本書のターゲット:データ 4 Kaplan, Jared, et al.
"Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).
どれくらいのデータが欲しい? • Llama2は2Tトークンを用いて学習 • Llama3では更に多い • 英語版のWikipediaを3Bトークンとすると、〜700個必要 • ヒント:Wikipediaは700個もない •
Webデータを使うことになる 5
再掲:テキストデータの収集と構築 6
問題①:データをどうやって大規模に集めるか? • CommonCrawlはWebのクローリング結果を定期的に公開 • ほとんどのLLMが利用 • HTMLからの本文抽出方法は非自明 • CommonCrawl側で本文抽出済みのデータ:低品質 •
metaはllama3のためにHTMLパーザを内製 • llama3の論文で一番スゴいのはここだと思っている 7
問題②:Webデータはノイズだらけ • その他,成人向けのコンテンツや広告が特に多い • 本書ではノイズを除去する方法を網羅的に解説 8
問題③:Webデータは重複だらけ • Webデータには多くの重複が存在 • MITやApacheなどのライセンス条文 • 一箇所の単語を変えた広告 • 「{宮城, 長崎,
青森} 県での引越しなら…」 • ブログサービスの初期定型文 • etc • 重複はLLMの学習に悪影響 • 文書間で単語の一致率を計算し,類似するものは削除 • 近似アルゴリズムの手を借りる • 詳細は本書で解説 9
まとめ • LLMの事前学習のためのテキストデータの収集と構築 • LLMとは言語モデルを大規模にしたもの • LLMの事前学習にはたくさんのデータが必要 • Webにはたくさんのデータがあるが,ノイズだらけ •
たくさん&高品質なデータの集め方は自明ではない • ぜひ本書の購入をご検討ください! 10