• 数学タスクで7〜12ポイント向上(右下図) → オープンに公開されているデータセットからでも 高性能なLLM(Llama-3超え)を作成することが可能 知見を論文で公開済み[4] データセットも公開済み[5][6] [4] Rewriting Pre-Training Data Boosts LLM Performance in Math and Code [5] https://huggingface.co/datasets/tokyotech-llm/swallow-code [6] https://huggingface.co/datasets/tokyotech-llm/swallow-math 4 Rewriting Pre-Training Data Boosts LLM Performance in Math and Code 表1より Rewriting Pre-Training Data Boosts LLM Performance in Math and Code 表5より