新聞記事からつくる時事と社会に強い日本語LLM（NLP2025）

言語処理学会第31回年次大会（NLP2025） ◦服部翔1,2, 水木栄1,2, 藤井一喜1,2, 中村泰士1,2, 塩谷
泰平1 植木快3, 新妻巧朗3, 川畑輝3, 田森秀明3, Youmi Ma1 前田航希1, 大井聖也1,2, 齋藤幸史郎1, 岡本拓己1, 石田茂樹1 横田理央1,2, 高村大也2, 岡崎直観1,2 1東京科学大学　2産業技術総合研究所　3朝日新聞社新聞記事からつくる時事と社会に強い日本語LLM C10-1

研究の概要 2 主題新聞記事テキストはLLMの事前学習にどのような恩恵をもたらすのか？施策生の新聞記事のみを用いた日本語LLMの継続事前学習　→上手くいかず...... 　　▼ ❶ 新聞記事をシードとした合成データを構築 ❷
合成データを併用して日本語LLMを継続事前学習　→性能改善に成功！知見 ❶ 新聞記事の有用性：時事，社会科学，人文科学などの分野の知識向上に寄与 ❷ 合成データの効果：高品質なデータを言い換えることによる学習効果の向上新聞記事以外にも応用できそうな知見

背景：大規模言語モデル（LLM）の学習ステップ 3 1 2 3 事前学習大量の言語データの教師なし学習で基礎的な知識を獲得する指示チューニング（SFT）教師あり学習を通じてタスクや
ドメインへの応用力を強化する選好最適化（RLHF・DPO）モデルの出力がより人間の価値観に沿ったものとなるように調整する初期状態ベースモデル指示モデルアライメント済みモデル大量の言語データ教師あり学習データ人間の選好データ事前学習，指示チューニング，選好最適化といった多くの工程が存在

背景：大規模言語モデル（LLM）の学習ステップ 4 1 2 3 事前学習大量の言語データの教師なし学習で基礎的な知識を獲得する指示チューニング（SFT）教師あり学習を通じてタスクや
ドメインへの応用力を強化する選好最適化（RLHF・DPO）モデルの出力がより人間の価値観に沿ったものとなるように調整する初期状態ベースモデル指示モデルアライメント済みモデル大量の言語データ教師あり学習データ人間の選好データ事前学習は大規模なテキストを次単語予測で学習し，基礎的な知識を獲得

背景：高品質な日本語資源を開拓し，日本語に強いLLMを構築する 5 高品質な日本語テキストで事前学習を行い，日本語に強いLLMを構築したい ➢ 少資源の日本語において，Web以外の言語資源開拓は重要新聞記事テキストは...... 1. 日本語の文章としての品質が担保されている 2. 日本の社会・文化・時事に関する情報が豊富に含まれている
➢ 高品質な日本語テキストとして有望な選択肢

研究課題：新聞記事を用いた日本語LLMのさらなる強化 6 新聞記事を用いた継続事前学習で日本語LLMの能力はさらに向上するか？ドメイン適応に近い実験設定，新聞記事から追加の知識を獲得できるか？ [1] Swallowコーパスv2: 教育的な日本語ウェブコーパスの構築（NLP2025）ベースLLM Llama 3.1
日本語LLM Llama 3.1 Swallow 時事と社会に強い日本語LLM 日本語Webテキスト[1]を中心としたコーパス新聞記事データ（少量）本研究

実験❶：朝日新聞記事を用いた日本語LLMの継続事前学習 7 朝日新聞社が所有する1984〜2024年の新聞記事データで日本語LLMを学習 • 記事数：5,918,638 件 • 規模：4,175,763,559 文字／
3.28BT 実験設定 • ベースLLM：Llama 3.1 Swallow 8B v0.1 • 学習データ：朝日新聞記事データのみ • 学習トークン数：1エポック（3.28BT），20BT　の2パターン

コード生成適切なプログラムコードを生成する能力を評価 JHumanEval 教養科目学術科目の知識レベルを一問一答形式で評価 JMMLU，pfgen-bench 翻訳日本語
↔ 英語の翻訳精度を評価 WMT20（英日，日英）質問応答日本語圏の知識レベルを一問一答形式で評価 JCom.，JEMHopQA，NIILC 実験設定：日本語を中心とした幅広い一般ベンチマークでの評価 8 新聞記事がLLMのどのような能力の向上に寄与するか，幅広いタスクで評価数学数学の文章題を読み解答を導く能力を評価 MGSM 要約・読解日本語の文章を読み取る力や要約を生成する能力を評価 XL-Sum，JSQuAD

実験設定：新聞ドメインのタスクでの評価 9 ニュース Q [2] • 2022～2023年度の朝日新聞記事を元に作成された 3～4 択のQA集 •
学習を通して，モデルが記事の知識を獲得できたかどうかを確認問題例（[2]より引用） 2023 年 4 月 19 日出題中国が台湾からの輸入を禁止したため、台湾から日本への輸出量が 8 倍以上に急増した食材は何でしょうか 1. バナナ　2. パイナップル　3. タピオカ [2] 時事情報に関する日本語 QA ベンチマーク『ニュース Q』（NLP2025）引用：2023年4月17日付　朝日新聞 ※画像は朝日新聞デジタル有料記事の冒頭より https://www.asahi.com/articles/ASR4G538NR4CUHBI02H.html 記事の内容から解答を導くことが可能

実験結果：生の新聞記事のみを用いた追加学習は上手くいかない 10 • 生の新聞記事のみを用いて学習した場合...... ◦ 要約（XL-Sum）を除く全ての日英タスクでスコアが低下 ◦ 記事を繰り返し学習した場合や英語関連のタスクでは下落傾向が強い実験パターン時事問題
教養科目質問応答要約読解英語ニュースQ JMMLU pfgen-bench 平均 XL-Sum JSQuAD 平均 Llama 3.1 Swallow 8B 63.3 51.8 67.1 67.4 20.2 89.9 55.8 記事（1エポック） 62.1 50.1 60.9 64.6 23.0 89.6 52.6 記事（20BTまで反復） 61.3 46.9 57.3 63.5 21.3 86.3 37.9 ※注：スペースの都合上，スライドでは一部タスクを抜粋・平均化して掲載新聞ドメイン

考察：生の新聞記事のみを用いた学習はなぜ上手くいかないのか？ 11 ❶ 生の新聞記事のみではテキストの量や多様性が不足 • 量：Webコーパス（一般に数百BT以上）と比較して圧倒的に少量（3.28BT） • 多様性：文字種や語彙の一部に偏りがある可能性 ◦ 英小文字・英大文字の割合は全体のわずか0.19%・0.40%
❷ LLMが特定の知識を獲得するには事実に多数回触れる必要がある[3] • 同じ事実でも，言い換えて多様な知識表現で与える方が良い......？[4] ➢ テキストの量や多様性の問題を解消して知識の定着を促せないか......？ [3] https://arxiv.org/abs/2404.05405 [4] https://arxiv.org/abs/2406.11813

提案手法：新聞記事をシードとしてLLMで合成データを生成する 12 既存研究[5,6]を参考に，新聞記事を元にした合成データをLLMで生成目的：新聞記事に含まれる知識を多様な表現に変換し，LLMへの定着を促す [5] https://arxiv.org/abs/2409.07431 [6] https://arxiv.org/abs/2309.09530 LLMを用いて記事を言い換えた
文書を生成生の新聞記事（シード）合成データ（QA形式，教科書形式）信頼性の高い情報元として適格記事に含まれる有用な知識を新鮮な表現で提供

提案手法：合成データ生成に用いたLLM・プロンプト 13 使用するLLM：Gemma 2 27B IT ここにシードテキストが入るここにシードテキストが入る

提案手法：生成した合成データの例（1） 14 QA形式の合成データは記事の情報を忠実に問題・解答の形式に変換橙色：記事の情報が忠実に引用された部分水色：記事に含まれる用語に関連する情報をLLMが独自に補完し，生成したとみなせる部分

提案手法：生成した合成データの例（2） 15 教科書形式の合成データはLLMが独自に補完した周辺知識も多く含まれる橙色：記事の情報が忠実に引用された部分水色：記事に含まれる用語に関連する情報をLLMが独自に補完し，生成したとみなせる部分

実験❷：生の新聞記事と合成データを併用した日本語LLMの継続事前学習 16 生の新聞記事と合成データを併用して日本語LLMを継続事前学習 • ベースLLM：Llama 3.1 Swallow 8B v0.1 •
学習トークン数：20BTで統一実験パターン用いる合成データの種類を変更 1. 生の記事のみ 2. 生の記事+QA形式（記事由来のみ） 3. 生の記事+教科書形式 4. 生の記事+合成データ全て ※注：教科書形式データからさらにQA形式に変換したデータ ※ データの合計規模は元の5.74倍（3.28BT→18.82BT）

実験結果❶：合成データを併用した学習で日本語の知識が向上 17 • 生の新聞記事と合成データを併用した場合...... ◦ ニュースQでは1.6〜3.0ptの改善を達成 ◦ 教養科目・要約・読解・質問応答の各タスクでも維持〜改善実験パターン時事問題
教養科目質問応答要約読解英語ニュースQ JMMLU pfgen-bench 平均 XL-Sum JSQuAD 平均 Llama 3.1 Swallow 8B 63.3 51.8 67.1 67.4 20.2 89.9 55.8 記事のみ 61.3 46.9 57.3 63.5 21.3 86.3 37.9 記事+QA 66.3 54.1 68.7 67.1 22.3 91.1 51.9 記事+教科書 64.9 48.7 67.1 67.3 22.4 90.2 52.0 記事+合成データ全て 65.5 53.7 67.1 69.1 21.7 91.3 53.2 ※注：スペースの都合上，スライドでは一部タスクを抜粋・平均化して掲載新聞ドメイン

実験結果❷：教科書形式よりもQA形式の方がより有効性が高い傾向 18 • スコアが改善したタスク群では，QA形式データの方がより効果的な傾向 ◦ QAは既存の学習データと大きく異なる，より新鮮な知識表現 ◦ 記事に忠実な形式変換でも有用　→新聞のような良質なシードの選択が重要実験パターン時事問題
教養科目質問応答要約読解英語ニュースQ JMMLU pfgen-bench 平均 XL-Sum JSQuAD 平均 Llama 3.1 Swallow 8B 63.3 51.8 67.1 67.4 20.2 89.9 55.8 記事 61.3 46.9 57.3 63.5 21.3 86.3 37.9 記事+QA 66.3 54.1 68.7 67.1 22.3 91.1 51.9 記事+教科書 64.9 48.7 67.1 67.3 22.4 90.2 52.0 記事+合成データ全て 65.5 53.7 67.1 69.1 21.7 91.3 53.2 ※注：スペースの都合上，スライドでは一部タスクを抜粋・平均化して掲載新聞ドメイン

実験結果❸-1：新聞記事と関連性の高い分野での知識向上 19 記事+合成データの学習では，社会科学・人文科学の問題で正答率が改善 ➔ 新聞記事と関連度の高い分野で知識が向上できている JMMLUのカテゴリ別正答率変化

実験結果❸-2：時事問題の正答率向上 20 記事+合成データの学習では，ニュースQの時事問題で正答率が改善 ➔ 新聞記事に含まれる知識事項（時事問題）を定着できているニュースQの時事問題における正答率変化

まとめ 21 主題新聞記事テキストはLLMの事前学習にどのような恩恵をもたらすのか？施策生の新聞記事のみを用いた日本語LLMの継続事前学習　→上手くいかず...... 　　▼ ❶ 新聞記事をシードとした合成データを構築 ❷
合成データを併用して日本語LLMを継続事前学習　→性能改善に成功！知見 ❶ 新聞記事の有用性：時事，社会科学，人文科学などの分野の知識向上に寄与 ❷ 合成データの効果：高品質なデータを言い換えることによる学習効果の向上新聞記事以外にも応用できそうな知見

付録・FAQ

FAQ（1） 23 Q 学習に用いた新聞記事データの内訳はどのようなものか？ A 全国紙だけでなく，地方面も相当数含まれている．全体としては，政治経済の記事のほか，社会や文化に関する記事が多い． Q 新聞記事テキストに対して前処理やフィルタリングは行ったのか？ A
必要最小限の処理のみを行った．詳しくは論文を参照されたい． • 全ての記事の全角スペースを空文字列に置換 • 本文の日本語文字数が 200 字未満の記事を除外 • 文の平均文字数が 10 文字未満の記事を除外 • 最頻出の {2, 3, 4}-gram の出現率が {0.20, 0.18, 0.16} より高い記事を除外 • ひらがな文字の割合が 0.1 未満の記事を除外

FAQ（2） 24 Q 合成データの生成に用いたLLMや計算環境は？ A データを生成するLLMには，Swallowチーム内の評価でパラメータ数に対して性能が高かった Gemma 2 27B
IT を採用した．また，計算機にはTSUBAME4.0の NVIDIA H100 GPU を使用し，vLLMによるバッチ推論を行った． Q 教科書形式データを構築した意図は？ A 新聞記事に多く含まれる「限定的・一時的な事象」を全て丸暗記することが必ずしも LLM の改善に有益とは限らないと考え，記事が提供する教育的な内容や取り扱う事象の周辺知識に焦点を置き，教科書のように一般的な教養を順序立てて説明する文書を構築することを狙った．実験結果では，QA形式データと比較した優位性は示されなかったため，本仮説はあまり支持されなかったといえる．

FAQ（3） 25 Q 生成した合成データに対する品質確認や修正処理は行ったのか？ A 本研究では生成されたテキストを全てそのまま採用した．ところが後日，Swallowプロジェクト内でほぼ同様の手法で生成した別のデータを用いた実験では，生成データのごく一部にrepetition（特定文字の繰り返し）が含まれていたことが発覚し，これらが70Bモデルの学習におけるLoss Spikeを誘発するリ
スクがあることが示唆された※．幸い，本研究の実験では同様の問題は発生しなかったが，上記の経験を踏まえると本来は合成データに対する最低限の品質確認を行うべきであったと考えられる．具体的な品質確認や修正処理の検討は今後の研究課題である． ➢ 合成データのrepetitionがLoss Spikeの原因であったと断定できたわけではないが，n-gramベースのルールで顕著なrepetitonを含む文書を除去して以降，Loss Spikeの問題が発生しなくなったことから，合成データの repetitonがLoss Spikeを誘発する要因の1つである可能性が捨てきれない，と分析している．

FAQ（4） 26 Q 合成データの併用以外に新聞記事データの効果を引き出す手法はなかったのか？ A ドメイン適応の学習においては，ドメインデータに加えて，ベースLLMの事前学習で用いたコーパスを少量混ぜて再学習することで，ベースLLMの知識忘却を抑制するという手法も知られている．本研究でも同様の設定を試した結果，日英翻訳（WMT20）を中心にスコアの下落幅が軽減したものの，全体的なスコア低下傾向を解消することはできなかった．
再学習の手法は新聞記事データそのものの量や多様性の問題を解消するわけではないため，根本的な問題の解決には繋がらなかった可能性がある．全く別の観点として，ベースLLMの学習に使用されたコーパスを完全に手元に準備するということ自体，一般的にはかなり困難なケースもあると考えられる．

新聞記事からつくる時事と社会に強い日本語LLM（NLP2025）

新聞記事からつくる時事と社会に強い日本語LLM（NLP2025）

Kakeru Hattori

More Decks by Kakeru Hattori

Other Decks in Research

Featured

Transcript

言語処理学会第31回年次大会（NLP2025） ◦服部翔1,2, 水木栄1,2, 藤井一喜1,2, 中村泰士1,2, 塩谷

研究の概要 2 主題新聞記事テキストはLLMの事前学習にどのような恩恵をもたらすのか？施策生の新聞記事のみを用いた日本語LLMの継続事前学習　→上手くいかず...... 　　▼ ❶ 新聞記事をシードとした合成データを構築 ❷

背景：大規模言語モデル（LLM）の学習ステップ 3 1 2 3 事前学習大量の言語データの教師なし学習で基礎的な知識を獲得する指示チューニング（SFT）教師あり学習を通じてタスクや

背景：大規模言語モデル（LLM）の学習ステップ 4 1 2 3 事前学習大量の言語データの教師なし学習で基礎的な知識を獲得する指示チューニング（SFT）教師あり学習を通じてタスクや

実験❶：朝日新聞記事を用いた日本語LLMの継続事前学習 7 朝日新聞社が所有する1984〜2024年の新聞記事データで日本語LLMを学習 • 記事数：5,918,638 件 • 規模：4,175,763,559 文字／

コード生成適切なプログラムコードを生成する能力を評価 JHumanEval 教養科目学術科目の知識レベルを一問一答形式で評価 JMMLU，pfgen-bench 翻訳日本語

実験設定：新聞ドメインのタスクでの評価 9 ニュース Q [2] • 2022～2023年度の朝日新聞記事を元に作成された 3～4 択のQA集 •

提案手法：合成データ生成に用いたLLM・プロンプト 13 使用するLLM：Gemma 2 27B IT ここにシードテキストが入るここにシードテキストが入る

実験❷：生の新聞記事と合成データを併用した日本語LLMの継続事前学習 16 生の新聞記事と合成データを併用して日本語LLMを継続事前学習 • ベースLLM：Llama 3.1 Swallow 8B v0.1 •

実験結果❸-1：新聞記事と関連性の高い分野での知識向上 19 記事+合成データの学習では，社会科学・人文科学の問題で正答率が改善 ➔ 新聞記事と関連度の高い分野で知識が向上できている JMMLUのカテゴリ別正答率変化

実験結果❸-2：時事問題の正答率向上 20 記事+合成データの学習では，ニュースQの時事問題で正答率が改善 ➔ 新聞記事に含まれる知識事項（時事問題）を定着できているニュースQの時事問題における正答率変化

まとめ 21 主題新聞記事テキストはLLMの事前学習にどのような恩恵をもたらすのか？施策生の新聞記事のみを用いた日本語LLMの継続事前学習　→上手くいかず...... 　　▼ ❶ 新聞記事をシードとした合成データを構築 ❷

付録・FAQ

FAQ（2） 24 Q 合成データの生成に用いたLLMや計算環境は？ A データを生成するLLMには，Swallowチーム内の評価でパラメータ数に対して性能が高かった Gemma 2 27B

新聞記事からつくる 時事と社会に強い日本語LLM（NLP2025）

新聞記事からつくる 時事と社会に強い日本語LLM（NLP2025）

More Decks by Kakeru Hattori

Other Decks in Research

Featured

Transcript

新聞記事からつくる時事と社会に強い日本語LLM（NLP2025）

新聞記事からつくる時事と社会に強い日本語LLM（NLP2025）