Module 知識抽出 etc. 感情付与 発話変換 発音変換 etc. WeatherForecast Shiritori News TimeDetector Tokenizer etc. 人の発話 Romi の発話 Bot Selec tor Priority Group AskAgain Priority Group ScenarioGraph (汎用ルール) Priority Group しりとり しりとり しりとり しりとり しりとり Priority Group Euler (AI)
Module 知識抽出 etc. 感情付与 発話変換 発音変換 etc. WeatherForecast Shiritori News TimeDetector Tokenizer etc. 人の発話 Romi の発話 Bot Selec tor Priority Group AskAgain Priority Group ScenarioGraph (汎用ルール) Priority Group しりとり しりとり しりとり しりとり しりとり Priority Group Euler (AI)
Module 知識抽出 etc. 感情付与 発話変換 発音変換 etc. WeatherForecast Shiritori News TimeDetector Tokenizer etc. 人の発話 Romi の発話 Bot Selec tor Priority Group AskAgain Priority Group Priority Group しりとり しりとり しりとり しりとり しりとり Priority Group ScenarioGraph (汎用ルール) Euler (AI)
• Instruct GPT ( https://arxiv.org/pdf/2203.02155.pdf ) ◦ ChatGPT で使われた学習方法 ◦ 通常の学習に強化学習を組み合わせ効率化 i. GPT3 を教師データでファインチューン ii. モデル出力候補を人手でランク付け、リワードモデルの作成 iii. (ii) がより高い数値を出すよう (i) を強化学習(PPO) • Romi では ◦ Long-term Memory 生成や会話生成での有効性検証 https://arxiv.org/abs/2203.02155 Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe,Training language models to follow instructions with human feedback, arXiv:2203.02155 (2022) p3, Figure 2 より引用
Trigger Input Spinal Trigger ServerResopnse after_trigg er before_respon se after_response before_tri gger System Trigger ServerResopnse after_trigger before_respon se after_response before_trigger halucas Server Brain Controller Converter Preprocess Postprocess Module 知識抽出 etc. 感情付与 発話変換 発音変換 etc. WeatherForecast Shiritori News TimeDetector Tokenizer etc. 人の発話 Romi の発話 Bot Select or Priority Group AskAgain Priority Group ScenarioGrph (汎用ルール) Priority Group しりとり しりとり しりとり しりとり しりとり Priority Group Euler (AI) AI Server Euler EmotionDetector etc. Romi System