• (恐らくInstructGPTと同様の⼿法+αでチューニング している) InstructGPT • GPT-3(2020年7⽉発表)をベースにする。 • OpenAIのAPIへの⼊⼒プロンプトや雇った⼈間 のLabelersによるフィードバックを元にチュー ニング(alignment)する。 https://openai.com/blog/chatgpt/ We trained this model using Reinforcement Learning from Human Feedback (RLHF), using the same methods as InstructGPT, but with slight differences in the data collection setup. We trained an initial model using supervised fine-tuning: human AI trainers provided conversations in which they played both sides— the user and an AI assistant. We gave the trainers access to model-written suggestions to help them compose their responses.
道徳的に良くない答えやバイアスがある答えを出⼒することがある。 ユーザー(⼈間)が好むアウトプットをだすようにAlignmentできないか。 損失関数でなく、⼈間のフィードバックを元にモデルを学習させる。 RLHF (Reinforcement Learning from Human Feedback)
Plain: We simply ask the labelers to come up with an arbitrary task, while ensuring the tasks had sufficient diversity. • Few-shot: We ask the labelers to come up with an instruction, and multiple query/response pairs for that instruction. • User-based: We had a number of use-cases stated in waitlist applications to the OpenAI API. We asked labelers to come up with prompts corresponding to these use cases. Labelerへの指針 ⼈類の属性分布を網羅しているわけではないですと注釈しています。 (若めの理系[コンピュータ関連]の⼈材が多そうでしょうか。)