『言語処理学会第31回年次大会(NLP2025)』(2025年3月10〜14日)にて発表
https://anlp.jp/nlp2025/
大規模言語モデル(LLM)の事前学習では,高品質なテキストを用いることが望ましい.本研究では,文書の「教育的価値」に着目した 2 種類の軽量な分類器を構築して,各文書に品質スコアを付与し,大規模日本語ウェブコーパスから高品質なテキストを抽出する手法を提案する.実験により,提案手法を適用することで,同等の学習計算規模で日本語の知識に関する LLM の能力をより効率的に向上できることを示した.また,分類器の特性比較,ヒューリスティック・ルールの調整,学習のエポック数を増やす実験などを通じて,提案手法の実用性や LLM 構築の最良慣行について検証する.