(RM)を訓練するデータをどう決定するかが重要 • mathデータでRMを作ってmathデータで評価,ITデータでRMを作ってbase modelのまま評価, で向上するのは当然に思える › ITデータでRMを作成・SLMした後に,十分なITデータセットでFine-Tuningしてから 評価しても有効なのか? • 一般ドメインでRMを訓練てもmath, codeに関して性能向上が大きい.なぜ? • 目的ドメインが決定しているドメイン適応の文脈では有用そう • 一般的な事前学習の文脈でどうRMを訓練するとよいか,が重要なfuture work • RMとして巨大モデルを使うのでは不十分?