『言語処理学会第31回年次大会(NLP2025)』(2025年3月10〜14日)にて発表
https://anlp.jp/nlp2025/
大規模言語モデル(LLM)の事前学習において新聞記事はどのような恩恵をもたらすのか?本研究では,LLM の日本語継続事前学習における新聞記事データの有用性,およびその効果を引き出すための手法について報告する.はじめに,新聞記事のみを用いて LLM の継続事前学習を行ったが,テキスト量と多様性の不足のためか,十分な効果を得ることができなかった.そこで,ドメイン適応の既存研究を参考に,新聞記事をシードとして LLM で合成データを生成し,継続事前学習のデータに追加した.実験の結果,合成データを併用することにより前述の問題を解消し,新聞記事に関連する分野を中心に,LLM の日本語能力が向上した.