Distillation] Pruning + knowledge distillationはなぜ性能改善につ ながったのか (仮説) overtraining pruning + knowledge distillation 前半データセットの学習 高品質データ その他データ 後半データセットの学習 高品質データ 後半データセットの学習 高品質データ 高品質データのみで学習したことが性能改善の理由かもしれない (高品質なデータセットでovertrainingすれば性能は揃うかも) • overtraining: 高品質データを大量に集めることは困難 ⇒ 高品質なデータセットでのovertrainingは難しい • pruning (等): 同じ性能に到達するまでの学習tokenを短くできる ⇒ 高品質なデータセットのみを使用して学習できる