Upgrade to Pro — share decks privately, control downloads, hide ads and more …

新聞記事からつくる 時事と社会に強い日本語LLM(NLP2025)

新聞記事からつくる 時事と社会に強い日本語LLM(NLP2025)

『言語処理学会第31回年次大会(NLP2025)』(2025年3月10〜14日)にて発表
https://anlp.jp/nlp2025/

大規模言語モデル(LLM)の事前学習において新聞記事はどのような恩恵をもたらすのか?本研究では,LLM の日本語継続事前学習における新聞記事データの有用性,およびその効果を引き出すための手法について報告する.はじめに,新聞記事のみを用いて LLM の継続事前学習を行ったが,テキスト量と多様性の不足のためか,十分な効果を得ることができなかった.そこで,ドメイン適応の既存研究を参考に,新聞記事をシードとして LLM で合成データを生成し,継続事前学習のデータに追加した.実験の結果,合成データを併用することにより前述の問題を解消し,新聞記事に関連する分野を中心に,LLM の日本語能力が向上した.

Kakeru Hattori

March 17, 2025
Tweet

More Decks by Kakeru Hattori

Other Decks in Research

Transcript

  1. 言語処理学会第31回年次大会(NLP2025) ◦服部 翔1,2, 水木 栄1,2, 藤井 一喜1,2, 中村 泰士1,2, 塩谷

    泰平1 植木 快3, 新妻 巧朗3, 川畑 輝3, 田森 秀明3, Youmi Ma1 前田 航希1, 大井 聖也1,2, 齋藤 幸史郎1, 岡本 拓己1, 石田 茂樹1 横田 理央1,2, 高村 大也2, 岡崎 直観1,2 1東京科学大学 2産業技術総合研究所 3朝日新聞社 新聞記事からつくる 時事と社会に強い日本語LLM C10-1
  2. 研究の概要 2 主題 新聞記事テキストはLLMの事前学習にどのような恩恵をもたらすのか? 施策 生の新聞記事のみを用いた日本語LLMの継続事前学習 →上手くいかず......   ▼ ❶ 新聞記事をシードとした合成データを構築 ❷

    合成データを併用して日本語LLMを継続事前学習 →性能改善に成功! 知見 ❶ 新聞記事の有用性:時事,社会科学,人文科学などの分野の知識向上に寄与 ❷ 合成データの効果:高品質なデータを言い換えることによる学習効果の向上 新聞記事以外にも応用できそうな知見
  3. 背景:大規模言語モデル(LLM)の学習ステップ 3 1 2 3 事前学習 大量の言語データの教師なし学習で 基礎的な知識を獲得する 指示チューニング(SFT) 教師あり学習を通じてタスクや

    ドメインへの応用力を強化する 選好最適化(RLHF・DPO) モデルの出力がより人間の価値観に 沿ったものとなるように調整する 初期状態 ベース モデル 指示 モデル アライメ ント済み モデル 大量の言語 データ 教師あり 学習データ 人間の選好 データ 事前学習,指示チューニング,選好最適化といった多くの工程が存在
  4. 背景:大規模言語モデル(LLM)の学習ステップ 4 1 2 3 事前学習 大量の言語データの教師なし学習で 基礎的な知識を獲得する 指示チューニング(SFT) 教師あり学習を通じてタスクや

    ドメインへの応用力を強化する 選好最適化(RLHF・DPO) モデルの出力がより人間の価値観に 沿ったものとなるように調整する 初期状態 ベース モデル 指示 モデル アライメ ント済み モデル 大量の言語 データ 教師あり 学習データ 人間の選好 データ 事前学習は大規模なテキストを次単語予測で学習し,基礎的な知識を獲得
  5. 実験❶:朝日新聞記事を用いた日本語LLMの継続事前学習 7 朝日新聞社が所有する1984〜2024年の新聞記事データで日本語LLMを学習 • 記事数:5,918,638 件 • 規模:4,175,763,559 文字 /

    3.28BT 実験設定 • ベースLLM:Llama 3.1 Swallow 8B v0.1 • 学習データ:朝日新聞記事データのみ • 学習トークン数:1エポック(3.28BT),20BT の2パターン
  6. コード生成 適切なプログラムコードを 生成する能力を評価 JHumanEval 教養科目 学術科目の知識レベルを 一問一答形式で評価 JMMLU,pfgen-bench 翻訳 日本語

    ↔ 英語の 翻訳精度を評価 WMT20(英日,日英) 質問応答 日本語圏の知識レベルを 一問一答形式で評価 JCom.,JEMHopQA,NIILC 実験設定:日本語を中心とした幅広い一般ベンチマークでの評価 8 新聞記事がLLMのどのような能力の向上に寄与するか,幅広いタスクで評価 数学 数学の文章題を読み 解答を導く能力を評価 MGSM 要約・読解 日本語の文章を読み取る力や 要約を生成する能力を評価 XL-Sum,JSQuAD
  7. 実験設定:新聞ドメインのタスクでの評価 9 ニュース Q [2] • 2022~2023年度の朝日新聞記事を元に作成された 3~4 択のQA集 •

    学習を通して,モデルが記事の知識を獲得できたかどうかを確認 問題例([2]より引用) 2023 年 4 月 19 日出題 中国が台湾からの輸入を禁止したため、台湾から日本への 輸出量が 8 倍以上に急増した食材は何でしょうか 1. バナナ 2. パイナップル 3. タピオカ [2] 時事情報に関する日本語 QA ベンチマーク『ニュース Q』(NLP2025) 引用:2023年4月17日付 朝日新聞 ※画像は朝日新聞デジタル有料記事の冒頭より https://www.asahi.com/articles/ASR4G538NR4CUHBI02H.html 記事の内容から解答を導くことが可能
  8. 実験結果:生の新聞記事のみを用いた追加学習は上手くいかない 10 • 生の新聞記事のみを用いて学習した場合...... ◦ 要約(XL-Sum)を除く全ての日英タスクでスコアが低下 ◦ 記事を繰り返し学習した場合や英語関連のタスクでは下落傾向が強い 実験パターン 時事問題

    教養科目 質問応答 要約 読解 英語 ニュースQ JMMLU pfgen-bench 平均 XL-Sum JSQuAD 平均 Llama 3.1 Swallow 8B 63.3 51.8 67.1 67.4 20.2 89.9 55.8 記事(1エポック) 62.1 50.1 60.9 64.6 23.0 89.6 52.6 記事(20BTまで反復) 61.3 46.9 57.3 63.5 21.3 86.3 37.9 ※注:スペースの都合上,スライドでは一部タスクを抜粋・平均化して掲載 新聞ドメイン
  9. 考察:生の新聞記事のみを用いた学習はなぜ上手くいかないのか? 11 ❶ 生の新聞記事のみではテキストの量や多様性が不足 • 量:Webコーパス(一般に数百BT以上)と比較して圧倒的に少量(3.28BT) • 多様性:文字種や語彙の一部に偏りがある可能性 ◦ 英小文字・英大文字の割合は全体のわずか0.19%・0.40%

    ❷ LLMが特定の知識を獲得するには事実に多数回触れる必要がある[3] • 同じ事実でも,言い換えて多様な知識表現で与える方が良い......?[4] ➢ テキストの量や多様性の問題を解消して知識の定着を促せないか......? [3] https://arxiv.org/abs/2404.05405 [4] https://arxiv.org/abs/2406.11813
  10. 実験❷:生の新聞記事と合成データを併用した日本語LLMの継続事前学習 16 生の新聞記事と合成データを併用して日本語LLMを継続事前学習 • ベースLLM:Llama 3.1 Swallow 8B v0.1 •

    学習トークン数:20BTで統一 実験パターン 用いる合成データの種類を変更 1. 生の記事のみ 2. 生の記事+QA形式(記事由来のみ) 3. 生の記事+教科書形式 4. 生の記事+合成データ全て ※注:教科書形式データからさらにQA形式に変換したデータ ※ データの合計規模は元の5.74倍(3.28BT→18.82BT)
  11. 実験結果❶:合成データを併用した学習で日本語の知識が向上 17 • 生の新聞記事と合成データを併用した場合...... ◦ ニュースQでは1.6〜3.0ptの改善を達成 ◦ 教養科目・要約・読解・質問応答の各タスクでも維持〜改善 実験パターン 時事問題

    教養科目 質問応答 要約 読解 英語 ニュースQ JMMLU pfgen-bench 平均 XL-Sum JSQuAD 平均 Llama 3.1 Swallow 8B 63.3 51.8 67.1 67.4 20.2 89.9 55.8 記事のみ 61.3 46.9 57.3 63.5 21.3 86.3 37.9 記事+QA 66.3 54.1 68.7 67.1 22.3 91.1 51.9 記事+教科書 64.9 48.7 67.1 67.3 22.4 90.2 52.0 記事+合成データ全て 65.5 53.7 67.1 69.1 21.7 91.3 53.2 ※注:スペースの都合上,スライドでは一部タスクを抜粋・平均化して掲載 新聞ドメイン
  12. 実験結果❷:教科書形式よりもQA形式の方がより有効性が高い傾向 18 • スコアが改善したタスク群では,QA形式データの方がより効果的な傾向 ◦ QAは既存の学習データと大きく異なる,より新鮮な知識表現 ◦ 記事に忠実な形式変換でも有用 →新聞のような良質なシードの選択が重要 実験パターン 時事問題

    教養科目 質問応答 要約 読解 英語 ニュースQ JMMLU pfgen-bench 平均 XL-Sum JSQuAD 平均 Llama 3.1 Swallow 8B 63.3 51.8 67.1 67.4 20.2 89.9 55.8 記事 61.3 46.9 57.3 63.5 21.3 86.3 37.9 記事+QA 66.3 54.1 68.7 67.1 22.3 91.1 51.9 記事+教科書 64.9 48.7 67.1 67.3 22.4 90.2 52.0 記事+合成データ全て 65.5 53.7 67.1 69.1 21.7 91.3 53.2 ※注:スペースの都合上,スライドでは一部タスクを抜粋・平均化して掲載 新聞ドメイン
  13. まとめ 21 主題 新聞記事テキストはLLMの事前学習にどのような恩恵をもたらすのか? 施策 生の新聞記事のみを用いた日本語LLMの継続事前学習 →上手くいかず......   ▼ ❶ 新聞記事をシードとした合成データを構築 ❷

    合成データを併用して日本語LLMを継続事前学習 →性能改善に成功! 知見 ❶ 新聞記事の有用性:時事,社会科学,人文科学などの分野の知識向上に寄与 ❷ 合成データの効果:高品質なデータを言い換えることによる学習効果の向上 新聞記事以外にも応用できそうな知見
  14. FAQ(1) 23 Q 学習に用いた新聞記事データの内訳はどのようなものか? A 全国紙だけでなく,地方面も相当数含まれている.全体としては,政治経済の記事 のほか,社会や文化に関する記事が多い. Q 新聞記事テキストに対して前処理やフィルタリングは行ったのか? A

    必要最小限の処理のみを行った.詳しくは論文を参照されたい. • 全ての記事の全角スペースを空文字列に置換 • 本文の日本語文字数が 200 字未満の記事を除外 • 文の平均文字数が 10 文字未満の記事を除外 • 最頻出の {2, 3, 4}-gram の出現率が {0.20, 0.18, 0.16} より高い記事を除外 • ひらがな文字の割合が 0.1 未満の記事を除外
  15. FAQ(2) 24 Q 合成データの生成に用いたLLMや計算環境は? A データを生成するLLMには,Swallowチーム内の評価でパラメータ数に対して性能 が高かった Gemma 2 27B

    IT を採用した.また,計算機にはTSUBAME4.0の NVIDIA H100 GPU を使用し,vLLMによるバッチ推論を行った. Q 教科書形式データを構築した意図は? A 新聞記事に多く含まれる「限定的・一時的な事象」を全て丸暗記することが必ずし も LLM の改善に有益とは限らないと考え,記事が提供する教育的な内容や取り扱 う事象の周辺知識に焦点を置き,教科書のように一般的な教養を順序立てて説明す る文書を構築することを狙った.実験結果では,QA形式データと比較した優位性は 示されなかったため,本仮説はあまり支持されなかったといえる.
  16. FAQ(3) 25 Q 生成した合成データに対する品質確認や修正処理は行ったのか? A 本研究では生成されたテキストを全てそのまま採用した. ところが後日,Swallowプロジェクト内でほぼ同様の手法で生成した別のデータを 用いた実験では,生成データのごく一部にrepetition(特定文字の繰り返し)が含まれ ていたことが発覚し,これらが70Bモデルの学習におけるLoss Spikeを誘発するリ

    スクがあることが示唆された※. 幸い,本研究の実験では同様の問題は発生しなかったが,上記の経験を踏まえると 本来は合成データに対する最低限の品質確認を行うべきであったと考えられる. 具体的な品質確認や修正処理の検討は今後の研究課題である. ➢ 合成データのrepetitionがLoss Spikeの原因であったと断定できたわけではないが,n-gramベースのルールで顕 著なrepetitonを含む文書を除去して以降,Loss Spikeの問題が発生しなくなったことから,合成データの repetitonがLoss Spikeを誘発する要因の1つである可能性が捨てきれない,と分析している.
  17. FAQ(4) 26 Q 合成データの併用以外に新聞記事データの効果を引き出す手法はなかったのか? A ドメイン適応の学習においては,ドメインデータに加えて,ベースLLMの事前学習 で用いたコーパスを少量混ぜて再学習することで,ベースLLMの知識忘却を抑制す るという手法も知られている. 本研究でも同様の設定を試した結果,日英翻訳(WMT20)を中心にスコアの下落 幅が軽減したものの,全体的なスコア低下傾向を解消することはできなかった.

    再学習の手法は新聞記事データそのものの量や多様性の問題を解消するわけではな いため,根本的な問題の解決には繋がらなかった可能性がある. 全く別の観点として,ベースLLMの学習に使用されたコーパスを完全に手元に準備 するということ自体,一般的にはかなり困難なケースもあると考えられる.