(Reinforcement Learning from Human Feedback) Reward Model Pre-training model Fine Tuning model Final model インストラクション (全て英語) OpenAI 14K instructions (22/4) Dolly (Open source): 15K LLaMA2: 100K ⽇本語 ????? ?
human feedback (L. Ouyang+ 20 authors, OpenAI) arXiv:2203.02155v1 [cs.CL] 4 Mar 2022 Instruction tuningの評価論⽂ How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources (Yizhong Wang+ 11 authors, AI2, U. of Washington) arXiv:2306.04751v1 [cs.CL] 7 Jul 2023
human feedback (L. Ouyang+ 20 authors, OpenAI) arXiv:2203.02155v1 [cs.CL] 4 Mar 2022 Instruction tuningの評価論⽂ How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources (Yizhong Wang+ 11 authors, AI2, U. of Washington) arXiv:2306.04751v1 [cs.CL] 7 Jul 2023 この2つの論⽂、読めば読むほど。。。 何が凄い要素かって、モデルよりも Instruction部分なのではないかと思えてくる もちろん こんなInstructionを学習できるモデルは凄いのだが ということで、絶対に両⽅が重要︕