Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Swallowコーパスv2: 教育的な日本語ウェブコーパスの構築(NLP2025)

Swallowコーパスv2: 教育的な日本語ウェブコーパスの構築(NLP2025)

『言語処理学会第31回年次大会(NLP2025)』(2025年3月10〜14日)にて発表
https://anlp.jp/nlp2025/

大規模言語モデル(LLM)の事前学習では,高品質なテキストを用いることが望ましい.本研究では,文書の「教育的価値」に着目した 2 種類の軽量な分類器を構築して,各文書に品質スコアを付与し,大規模日本語ウェブコーパスから高品質なテキストを抽出する手法を提案する.実験により,提案手法を適用することで,同等の学習計算規模で日本語の知識に関する LLM の能力をより効率的に向上できることを示した.また,分類器の特性比較,ヒューリスティック・ルールの調整,学習のエポック数を増やす実験などを通じて,提案手法の実用性や LLM 構築の最良慣行について検証する.

Kakeru Hattori

March 17, 2025
Tweet

More Decks by Kakeru Hattori

Other Decks in Research

Transcript

  1. 言語処理学会第31回年次大会(NLP2025) ◦服部 翔1,2, 岡崎 直観1,2,3, 水木 栄1,2, 藤井 一喜1,2, 中村

    泰士1,2 大井 聖也1,2, 塩谷 泰平1, 齋藤 幸史郎1, Youmi Ma1, 前田 航希1 岡本 拓己1, 石田 茂樹1, 横田 理央1,2,3, 高村 大也2 1東京科学大学 2産業技術総合研究所 3NII LLMC Swallowコーパスv2: 教育的な日本語ウェブコーパスの構築 C1-5
  2. 研究の概要 2 主題 教育的な日本語Webテキストを用いた日本語に強いLLMの構築 施策 ❶ 軽量な分類器の導入による「教育的」なWebテキストの厳選 ❷ 教育的なWebテキストを用いてLLMを継続事前学習し,性能を網羅的に評価 知見

    ❶ 提案手法の有効性:日本語の知識系タスク(QA,教養科目,翻訳)の改善 ❷ 分類器の構築:LLMの採点に基づいて訓練した分類器は,汎用性が高い ❸ 量と質のトレードオフ:教育的なテキストでも,過度な繰り返し学習は逆効果 ※❸の内容は付録スライドを参照
  3. 背景:大規模言語モデル(LLM)の学習ステップ 3 1 2 3 事前学習 大量の言語データの教師なし学習で 基礎的な知識を獲得する 指示チューニング(SFT) 教師あり学習を通じてタスクや

    ドメインへの応用力を強化する 選好最適化(RLHF・DPO) モデルの出力がより人間の価値観に 沿ったものとなるように調整する 初期状態 ベース モデル 指示 モデル アライメ ント済み モデル 大量の言語 データ 教師あり 学習データ 人間の選好 データ 事前学習,指示チューニング,選好最適化といった多くの工程が存在
  4. 背景:大規模言語モデル(LLM)の学習ステップ 4 1 2 3 事前学習 大量の言語データの教師なし学習で 基礎的な知識を獲得する 指示チューニング(SFT) 教師あり学習を通じてタスクや

    ドメインへの応用力を強化する 選好最適化(RLHF・DPO) モデルの出力がより人間の価値観に 沿ったものとなるように調整する 初期状態 ベース モデル 指示 モデル アライメ ント済み モデル 大量の言語 データ 教師あり 学習データ 人間の選好 データ 事前学習は大量のテキストを次単語予測で学習し,基礎的な知識を獲得
  5. 提案手法:日本語Webコーパスの品質フィルタリング改善 7 分類器の導入で日本語Webコーパスから教育的なテキストを厳選 [1] https://arxiv.org/abs/2404.17733 フィルタリング前の 日本語Webコーパス ルールに基づく フィルタリング 高品質(?)な

    日本語コーパス フィルタリング前の 日本語Webコーパス ルールに基づく フィルタリング 分類器に基づく フィルタリング 教育的な 日本語コーパス Swallowコーパスv1(従来)[1] Swallowコーパスv2(本研究) 新規 ※ルールの緩和についての説明は,本発表では省略する 緩和※
  6. 研究課題:日本語Webコーパスの品質フィルタリング改善 8 解決したい研究課題 1. 分類器はどのように構築すると良いか? → 2つの構築手法を比較 2. 教育的なテキストでLLMの日本語能力がどのように改善するか? →

    実験 フィルタリング前の 日本語Webコーパス ルールに基づく フィルタリング 分類器に基づく フィルタリング 教育的な 日本語コーパス 緩和※ 新規 ※ルールの緩和についての説明は,本発表では省略する Swallowコーパスv2(本研究)
  7. 提案手法❷:LLM分類器(LLMによる教育的価値の採点) 11 • 使用するLLM:Llama 3.1 70B Instruct • 採点対象:日本語Web文書(23.8万件) •

    プロンプト:3段階の加点方式で評価,指示や出力形式を明確に記述 以下はウェブページからの抜粋です。高等教育に焦点を当てた経験豊富な教師として、与えられたテキストの教育的価値を評価し、以下の加点式の3段階 評価システムを用いて採点してください。 ### 評価基準 1. 教育的価値が高いトピック(1点): 抜粋は、大学生が幅広い教養を身につける上で重要な客観的な事実や知識を提供しており、教育的価値が非常に高いです。学問の習得や社会生活における 重要な基盤を築くものであり、幅広い活用機会があります。例えば、ビジネスや会計、哲学、日常的な雑学、科学、社会科学、人文科学、法学、技術、健 康などに関する知識を含んでいます。 2. 深い洞察や議論の提供(1点): 抜粋は教育的なトピックに関する詳細な情報や説明を一貫して提供しています。単語や概念を表面的に取り扱うだけでなく、深い洞察や議論を提供してお り、教育的価値が非常に高いです。 3. 一般の人向けの分かりやすい説明(1点): 抜粋は教育的なトピックに対して明確でシンプルな説明を提供しており、その分野の専門家ではない一般の人でも内容をよく理解することができます。 「教育的」の定義を反映したプロンプト
  8. 提案手法:分類器の構築方法比較 12 Wiki分類器とLLM分類器では,訓練データとラベルの数が異なる 項目 Wiki分類器 LLM分類器 訓練データ(正例) 学術分野のWikipedia記事 LLMで教育的価値を 採点したWeb文書

    訓練データ(負例) Web文書(ランダム抽出) ラベルの種類 0, 1 0, 1, 2, 3 (※予測確率の和は1) 特徴量 文字 n-gram (n = 2, 3) スコアの計算方法 予測確率そのまま(0〜1点) 重み付き加算(0〜3点)
  9. いずれの手法でも,精度の高い分類器を構築することができた • 4-Acc:ラベル予測の正解率 • RMSE:二乗平均平方根誤差 • MAE:平均絶対誤差 • 2-Acc:スコア 1.5

    を閾値とした二値分類の正解率 Wiki分類器 LLM分類器 セット Acc 4-Acc RMSE MAE 2-Acc 訓練 0.998 0.908 0.334 0.209 0.960 評価 0.995 0.667 0.565 0.399 0.899 提案手法:構築した分類器の評価 13 4ラベルなので4-Accは下がるが 他の指標を参照すれば十分な精度
  10. 実験設定:Llama 3 8B の日本語継続事前学習 14 日本語Webコーパスに適用する品質フィルタリングのみを変更して比較 • ベースLLM:Llama 3 8B

    • 学習データ:Swallowコーパスv2(48.3BT),日本語Wikipedia(1.7BT) 実験パターン 1. 分類器なし(ベースライン) 2. Wiki分類器(上位10%) 3. Wiki分類器(上位10–30%) 4. LLM分類器(上位10%) 5. LLM分類器(上位10–30%) ※エポック数は全て1 Swallowコーパスv2全てのうち スコアが上位の文書のみを使う 上位10% 上位 10–30 %
  11. コード生成 適切なプログラムコードを 生成する能力を評価 JHumanEval 教養科目 学術科目の知識レベルを 一問一答形式で評価 JMMLU,pfgen-bench 翻訳 日本語

    ↔ 英語の 翻訳精度を評価 WMT20(英日,日英) 質問応答 日本語圏の知識レベルを 一問一答形式で評価 JCom.,JEMHopQA,NIILC 実験設定:日本語を中心とした幅広いベンチマークで評価 15 提案手法がLLMのどのような能力の向上に寄与するか,幅広いタスクで評価 数学 数学の文章題を読み 解答を導く能力を評価 MGSM 要約・読解 日本語の文章を読み取る力や 要約を生成する能力を評価 XL-Sum,JSQuAD
  12. 実験結果:分類器のスコア最上位の文書は日本語の知識向上に有効 16 • Wiki/LLM分類器のスコア上位10%の文書を用いた場合...... ◦ いずれも,質問応答・教養科目・翻訳で,ベースラインよりスコアが向上 ➔ 教育的なテキストは,日本語の知識に関するLLMの能力改善に有効 実験パターン 質問応答

    教養科目 翻訳 分類器 閾値 JCom. JEMHopQA NIILC JMMLU pfgen-bench WMT20-enja WMT20-jaen Llama 3(ベースLLM) 83.6 44.5 40.0 45.6 40.3 22.0 20.9 ベースライン 87.5 46.3 56.3 46.9 60.9 27.0 20.1 Wiki 上位10% 89.1 55.3 60.7 48.4 63.9 29.7 22.6 上位10–30% 88.0 44.6 53.4 45.3 61.2 27.1 20.9 LLM 上位10% 88.6 49.5 59.9 50.2 66.5 28.3 20.9 上位10–30% 89.3 50.1 56.2 46.0 62.6 28.1 20.5
  13. 実験結果:LLM分類器はスコア帯を下げた場合でも有効性を維持 17 • Wiki/LLM分類器のスコア上位10–30%の文書を用いた場合...... ◦ Wiki分類器:ベースラインを下回る〜同等程度のスコア水準 ◦ LLM分類器:上位10%での傾向を維持し,ベースラインよりも良いスコア 実験パターン 質問応答

    教養科目 翻訳 分類器 閾値 JCom. JEMHopQA NIILC JMMLU pfgen-bench WMT20-enja WMT20-jaen Llama 3(ベースLLM) 83.6 44.5 40.0 45.6 40.3 22.0 20.9 ベースライン 87.5 46.3 56.3 46.9 60.9 27.0 20.1 Wiki 上位10% 89.1 55.3 60.7 48.4 63.9 29.7 22.6 上位10–30% 88.0 44.6 53.4 45.3 61.2 27.1 20.9 LLM 上位10% 88.6 49.5 59.9 50.2 66.5 28.3 20.9 上位10–30% 89.3 50.1 56.2 46.0 62.6 28.1 20.5
  14. 実験結果:教育的なテキストで改善しなかったタスク 19 • いずれの分類器も,要約・読解・数学・コード生成への効果は限定的 ➔ 知識よりも言語横断的な推論能力が重要なタスクの改善には別の手法が必要 実験パターン 要約 読解 数学

    コード生成 英語(全て) 分類器 閾値 XL-Sum JSQuAD MGSM JHumanEval 平均 Llama 3(ベースLLM) 17.6 88.8 33.2 33.1 56.5 ベースライン 20.1 88.8 32.8 23.9 48.8 Wiki 上位10% 20.9 89.5 28.4 24.1 49.9 上位10–30% 18.3 89.2 30.4 22.8 49.2 LLM 上位10% 19.3 89.8 33.6 24.8 50.2 上位10–30% 19.1 90.0 34.8 25.7 49.6
  15. 研究成果の適用・今後の展望 20 研究成果の適用 1. 本研究で構築した分類器の配布(edu-classifier) 2. 公開版モデル(Llama 3.1 Swallow)への手法適用 今後の展望

    • LLMによる事前学習用の合成データの構築 ◦ 本研究で厳選した教育的なWeb文書は,合成のシードとしても有望そう ◦ 関連発表:[C10-1] 新聞記事からつくる 時事と社会に強い日本語LLM
  16. 提案手法:ルールベースのフィルタリングを緩める 22 • 分類器で厳選できるので,ルールでは低品質な文書の除去のみに注力 • 対照実験での検証はコストが高いため,データ観察に基づいて調整 文の最大文字数 高品質な文書を誤検知しやすい 複数回登場する 5~10-gramの割合

    論文などの学術的な文書が特定のキーワードを多用したケースを 誤検知することが多い カタカナ文字の割合 非日本語文字の割合 英語や海外の用語が一定含まれた文書は,むしろ翻訳タスクの 性能向上などに有効な可能性がある 従来研究[3]から見直したルールの一覧
  17. 実験結果:Wiki分類器とLLM分類器の細かな比較 24 • Wiki/LLM分類器のスコア上位10%の文書を用いた場合...... ◦ Wiki分類器:翻訳タスクに強い傾向 ◦ LLM分類器:教養科目タスクに強い傾向 実験パターン 質問応答

    教養科目 翻訳 分類器 閾値 JCom. JEMHopQA NIILC JMMLU pfgen-bench WMT20-enja WMT20-jaen Llama 3(ベースLLM) 83.6 44.5 40.0 45.6 40.3 22.0 20.9 ベースライン 87.5 46.3 56.3 46.9 60.9 27.0 20.1 Wiki 上位10% 89.1 55.3 60.7 48.4 63.9 29.7 22.6 上位10–30% 88.0 44.6 53.4 45.3 61.2 27.1 20.9 LLM 上位10% 88.6 49.5 59.9 50.2 66.5 28.3 20.9 上位10–30% 89.3 50.1 56.2 46.0 62.6 28.1 20.5
  18. 課題:学習データの質と量のトレードオフ問題(2) 26 • 教育的な文書を厳選すると,量が減ってしまう • 最上位を何回も学習する vs 閾値を下げて量を増やす → 実験で検証

    分類器なし スコア上位 スコア上位 スコア 最上位 スコア 最上位 スコア 最上位 スコア 最上位 スコア 最上位 スコア 最上位 スコア 最上位 スコア 最上位 元の日本語Webコーパス1周分のトークン量 元の日本語Webコーパス1周分の量を教育的な文書のみで学習するときのイメージ スコア上位 品質 ユニーク量 高 低 中 少 多 中
  19. FAQ(1) 28 Q そもそも「教育的」の定義は? A 本研究では以下の2つを「教育的」な文書の条件であると考えている. 1. テキストの内容が学術的・教養的であること 2. 物事を分かりやすく教えていること

    特にLLM分類器では,上記の2点を重視してプロンプトを設計した. Q 分類器の構築手法自体に新規性はあるのか? A あまりない.多くの部分は,FineWeb-Edu や DCLM-baseline などの既存研究を参 考に手法を設計した.ただし,以下の観点では新規性があるといえる. • 日本語Webコーパスを対象に,体系的に研究を行った事例としては初である. • 複数の既存研究の知見を統合し,LLMに与えるプロンプトを独自調整した.
  20. FAQ(2) 29 Q 分類器の構築以外にもっといい手法の選択肢はなかったのか? A ルールベースでは限界がある.また,機械学習ベースの手法として,言語モデルの パープレキシティを用いたものなどもあるが,既存研究の報告を踏まえ,分類器を 構築する手法の方が有効であると判断した. Q 教育的な文書ばかりを用いてLLMを学習することの弊害はないのか?

    A 本研究で採用したモデル評価の範囲では,弊害を確認できなかった.ただし,教育 的と評価されにくいドメインの文書(例:広告,ECサイト)を対象にしたタスクに 弱くなる,といったことは考えられるかもしれない.実用上は,教育的でない文書 も一定の割合は混ぜて学習する,といった対策も検討の余地がある. 参考:https://tech.preferred.jp/ja/blog/plamo-2/
  21. FAQ(3) 30 Q Wikipedia以外に,教育的なテキストの正例は考えられなかったのか? A DCLM-baselineでは,専門知識を一般人に分かりやすく説明するための掲示板であ る ELI5 やGPT-4で合成した対話データが有用な正例データとしている.このよう な「人に物事をわかりやすく説明する」という性質を持つ日本語テキスト群があれ

    ば,正例として有望な可能性がある(ただしデータ偏りの課題は残る). Q 提案手法で改善しなかった推論系のタスクは,どのように改善していくか? A 数学,コード生成では,英語の高品質な特化型データやソースコードコーパスを併 用して学習することで改善できることがわかっている.本研究の提案手法と他の手 法を組み合わせてモデルの性能を総合的に上げていくことが重要だと考える. 参考:https://swallow-llm.github.io/llama3.1-swallow.ja.html