ゲームから飛び出した強化学習は、今輝いているか

© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. ゲームから飛び出した強化学習は、今輝いているか Reinforcement learning after 2019 久保隆宏アマゾンウェブサービスジャパン合同会社機械学習デベロッパーリレーションズ

© 2023, Amazon Web Services, Inc. or its affiliates. 本日お話しすること
2 20 ~ 30 代の 50% 以上が「タイパ」を意識し、 5 割が動画の倍速再生を実施する中、強化学習は学んだ方がいいのか ? 出典 : “ヴァリューズと三菱UFJ信託銀行、「タイパ」行動について調査／実践率が高いのは20代男性・30代女性” を判断する参考情報

© 2023, Amazon Web Services, Inc. or its affiliates. 本日お話しすること
3 強化学習に関心を持っている方に対し、「 Pythonで学ぶ強化学習」を手に取って頂くメリットをお伝えします。その後強化学習の最近の応用事例に触れ、書籍を通じ願っていた「強化学習の実世界応用」がどこまで進んでいるか、今後どうなるか私見をお伝えできればと思います。 ※「私見」とある通り、本日お話しする内容は Amazon および AWS の公式見解というわけではありません。

© 2023, Amazon Web Services, Inc. or its affiliates. 4
自己紹介アマゾンウェブサービスジャパン合同会社 Machine Learning Developer Relations 久保隆宏 (Kubo Takahiro) ミッション「機械学習を実用するなら AWS 」という認知を拡大すること。現在、プロダクト開発チーム向けに機械学習のプロダクト応用ができるようになるためのワークショップ「 ML Enablement Workshop 」を推進。 10 年以上の業務コンサルタント経験、また研究開発していたテーマをプロダクトとしてリリースした経験を活かしながら活動中。

© 2023, Amazon Web Services, Inc. or its affiliates. 「
Python で学ぶ強化学習」を執筆以後 5 執筆時は前職の研究開発部門に所属。その後、専門だった自然言語処理を用い企業の開示文書を分析する研究を推進。事業部門に異動しプロダクト化に取り組み、リリース。機械学習をプロダクトに活かす難しさを痛感。ビジネスに役立てるにはどうすればいいのか ? を探るべく文字通りアマゾンの奥地へ旅立ち今に至る。

© 2023, Amazon Web Services, Inc. or its affiliates. AWS
の Developer Relations として進めているワークショップ: ML Enablement Workshop 6 6 自社プロダクトの成長を狙うチームが、機械学習の使いどころを学び、実行可能な計画を立てられるようになることが目的の無償ワークショップ。 https://github.com/aws-samples/aws-ml-enablement-workshop 2023/7/20 時点で、AWS Japan 内で最多の Star 数

© 2023, Amazon Web Services, Inc. or its affiliates. 書籍を執筆した時から変わらず思っていること
7 機械学習を実際のプロダクトで役立てる人 =ML Product Manager (ML PdM) を増やしたい。 ML PdM とは ? という方はぜひ「ChatGPT IN ACTION #2 大規模言語モデルがつくる新しい顧客体験」での LayerX 松村さんの講演を見て頂ければ。プロダクトマネージャーのコミュニティ「プロダクト筋トレ」でも活動中です。

© 2023, Amazon Web Services, Inc. or its affiliates. 最近執筆した記事や登壇
8 • 日本の AI 導入効果がアメリカの7分の1程度しかないのはなぜなのか • note で 2 万 View 。 2023 年 1 月初週で最も読まれた記事に。 • プロダクト開発と研究の境界を越え機械学習を活かすチームになる • 35,000 人の参加する AWS Summit で講演(動画) • 機械学習プロジェクトの約 80 %が失敗するのは伊達ではないと実感したが、現実に負けないワークショップに挑戦する • プロダクトの成長をリードする生成系 AI の活用戦略

© 2023, Amazon Web Services, Inc. or its affiliates. Agenda
9 1. 「Pythonで学ぶ強化学習」はどんな書籍か 2. 近年の強化学習の応用事例 3. 今後の強化学習発展の見通し

© 2023, Amazon Web Services, Inc. or its affiliates. Python
で学ぶ強化学習概要 11 現時点で初版から数えると 8 刷 ( 多分 )。中国語版も出版されています。 • 2019 年 1 月第 1 刷 • 2019 年 2 月第 3 刷 • 2019 年 9 月 20 日改定2版第 1 刷 • 2022 年 6 月 16 日改定2版第 5 刷

で学ぶ強化学習の構成 12 • Day1 強化学習の位置づけを知る • Day2 強化学習の解法 (1) 環境から計画を立てる • Day3 強化学習の解法 (2) 経験から計画を立てる • Day4 強化学習に対するニューラルネットワークの適用 • Day5 強化学習の弱点 • Day6 強化学習の弱点を克服するための手法 • Day7 強化学習の活用領域

で学ぶ強化学習の構成 13 • Day1 強化学習の位置づけを知る • Day2 強化学習の解法 (1) 環境から計画を立てる • Day3 強化学習の解法 (2) 経験から計画を立てる • Day4 強化学習に対するニューラルネットワークの適用 • Day5 強化学習の弱点 • Day6 強化学習の弱点を克服するための手法 • Day7 強化学習の活用領域 Day1 ~ Day3 で強化学習の基本的な仕組みと、モデルベース、モデルフリーの基礎的な手法を解説。

© 2023, Amazon Web Services, Inc. or its affiliates. モデルベースとモデルフリーのイメージ
14 Stable Diffusion 2.1 で画像を生成環境の情報 ( 報酬関数と遷移関数 ) が既知の時、強化学習エージェントは一切動かさず最適な行動計画を立てられる。強化学習エージェントを環境の中で実際に動かし、様々な状態で取った行動の報酬から行動計画を立てる。

で学ぶ強化学習の構成 15 • Day1 強化学習の位置づけを知る • Day2 強化学習の解法 (1) 環境から計画を立てる • Day3 強化学習の解法 (2) 経験から計画を立てる • Day4 強化学習に対するニューラルネットワークの適用 • Day5 強化学習の弱点 • Day6 強化学習の弱点を克服するための手法 • Day7 強化学習の活用領域 Day4 で深層強化学習について解説

© 2023, Amazon Web Services, Inc. or its affiliates. 状態を認識して行動を評価する過程を深層学習でモデル化す
ることで、 Atari のゲームで人を超えるプレイを見せる。 16 “Playing Atari with Deep Reinforcement Learning” を参照ゲームの画面は ROCKMAN より引用

で学ぶ強化学習の構成 17 • Day1 強化学習の位置づけを知る • Day2 強化学習の解法 (1) 環境から計画を立てる • Day3 強化学習の解法 (2) 経験から計画を立てる • Day4 強化学習に対するニューラルネットワークの適用 • Day5 強化学習の弱点 • Day6 強化学習の弱点を克服するための手法 • Day7 強化学習の活用領域 Day5 で深層強化学習の 3 つの弱点の解説

© 2023, Amazon Web Services, Inc. or its affiliates. 深層強化学習の
3 つの弱点 18 サンプル効率が低い過学習する再現性が低い人間なら数分でゲームをプレイする方法を学べるが、強化学習では数十~百数時間分のフレームが必要 (※1) ゲームの配色が変わると動けなくなったり、報酬を最大化するために予測できない行動をとる (※2, 3) 同じアルゴリズムとパラメーターでも有意差が出るレベルの性能差が出ることがある(※4) ※1: Rainbow: Combining Improvements in Deep Reinforcement Learning ※2: A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning ※3: Faulty reward functions in the wild ※4: Deep Reinforcement Learning that Matters

で学ぶ強化学習の構成 19 • Day1 強化学習の位置づけを知る • Day2 強化学習の解法 (1) 環境から計画を立てる • Day3 強化学習の解法 (2) 経験から計画を立てる • Day4 強化学習に対するニューラルネットワークの適用 • Day5 強化学習の弱点 • Day6 強化学習の弱点を克服するための手法 • Day7 強化学習の活用領域 Day6 で弱点を克服するための表現学習、進化戦略、模倣学習/逆強化学習について解説。 Day7 で今後の活用領域について解説。

3 つの弱点を克服するアプローチ 20 サンプル効率の改善過学習する再現性が低い・戦略の改善様々なネットワーク・状態認識の改善表現学習など・人からの教示模倣学習逆強化学習・異なる学習方法進化戦略など

で学ぶ強化学習の特徴 2022 年の書籍にもない弱点と克服手法を実装付きでカバー 21 本書他書籍A 他書籍B 他書籍C 他書籍D 出版年 2019 2018 2019 2022 2022 理論〇〇 ◎ 数理中心 ◎ 非常に丁寧 ◎ 鉄板の原著実装〇〇実装例が豊富 - △ DNNは独自FW - 機械学習の基礎 Day1 – Day3 〇〇〇 ◎ ◎ 深層強化学習 Day4 〇〇〇〇 - 強化学習の弱点 Day5 〇 - - - - 弱点克服の手法 Day6 ◎ 複数手法を提示 - - - - 今後の展望 Day7 〇 - △ - 〇

で学ぶ強化学習の特徴 2022 年の書籍にもない弱点と克服手法を実装付きでカバー 22 執筆後、頂いてうれしかった Amazon のレビュー「(前略) ・後半，強化学習の弱点や逆強化学習などの応用的・発展的な話題に触れている，Dyna・進化的方法・模倣学習・逆強化学習の実装例が載っているのは良い．現時点ではこれらをコードまで含めてマトモに扱っている書籍は洋書まで含めても存在していなかったかと思う（ブログとかGitには転がってると思いますけど）．個人的には6章だけでも値段分の価値はあった．」

で学ぶ強化学習の特徴 2022 年の書籍にもない弱点と克服手法を実装付きでカバー 23 その他頂いた、本書の特徴を表すレビュー • 数式の導出や実装を勉強するのは他を当たるのがいいです。 • Python はわかるが強化学習は初めて、強化学習は勉強したことがあるが、実際にプログラムを組みあげる方針がわからないという方におすすめできます。

© 2023, Amazon Web Services, Inc. or its affiliates. 「Pythonで学ぶ強化学習」はどんな書籍か
? 実際のアプリケーションで強化学習を活用したいと考えている開発者の方が、実装を通じ強化学習を理解し、応用する上での注意点や対策を学ぶのに適した本。向いていないユースケース • 強化学習の理論をしっかり学びたい • アプリケーション開発の経験がなく、 Python は初めて 24

© 2023, Amazon Web Services, Inc. or its affiliates. 「Pythonで学ぶ強化学習」はどんな書籍か
? (余談) 本書の謝辞に ELLEGARDEN についての感謝と活動再開への喜びが書かれていますが、 2019 年から 4 年、家族の理解もありとうとうライブに行くことができました。 ※ ELLEGARDEN を知らない方はぜひ聴いてください。 ZOZO マリン当選の方おめでとうございます 25 投影のみ

© 2023, Amazon Web Services, Inc. or its affiliates. 近年の代表的な機械学習の応用事例
• ChatGPT • AlphaDev • 核融合炉の制御の実験 (DeepMind + Swiss Plasma Center) 27

© 2023, Amazon Web Services, Inc. or its affiliates. ChatGPT
(1/3) ChatGPT の前身となった Instruct GPT を構築する際、指示に対し適切な出力を学習させるだけでなく、人の好む出力をするよう学習させるのに使用されている。 28 “Training language models to follow instructions with human feedback” より引用教師有り学習により「何を出力すべきか」を学習強化学習により「何を優先して出力すべきか」を学習上記の手法は以前から研究されており、詳細は Fine-Tuning Language Models from Human Preferences を参照

(2/3) GPT-3 の API 、その後公開された InstructGPT へ寄せられたリクエストに対し、強化学習済みの PPO/PPO-ptx は教師有りのみのモデルに対し + 0.1 前後好まれる。 29 “Training language models to follow instructions with human feedback” より引用

(3/3) GPT-4 の発表では、タスクの精度を改善しないものの誤解に基づく人の回答 (Adversarial questions) に適切に回答できる精度が上がるとしている。効果は GPT-3 よりも高い。 30 “GPT-4 Technical Report” より引用 Anthropic の “Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned” では、モデルサイズが大きくなるほど強化学習による制御が有効なことを示唆している。

© 2023, Amazon Web Services, Inc. or its affiliates. AlphaDev
31 囲碁や将棋で成果を収めた Alpha Zero で、最速のソートを実現するアセンブリ言語の組み合わせを探索。短い系列だと 70% 速く、 250,000 を超える系列だと 1.7% 高速なアルゴリズムを発見。命令の系列は Transformer でベクトル表現にし、価値関数としてソートの成立と速度の 2 つを予測する。 “Faster sorting algorithms discovered using deep reinforcement learning” より引用

© 2023, Amazon Web Services, Inc. or its affiliates. 核融合炉制御
32 トカマク型の核融合炉で必要な磁気によるプラズマの制御に強化学習を用いる研究。プラズマの状態に応じた、しかもリアルタイムの制御が必要。普通の制御技術を組み合わせると複雑な組み合わせになるが、強化学習モデル 1 本で済むとコントローラーをシンプルにできる。制御者の電圧指令を Replay Buffer に入れて、シミュレーターで学習。最終的に本番 (!?) にデプロイして制御する。 “Magnetic control of tokamak plasmas through deep reinforcement learning” より引用

© 2023, Amazon Web Services, Inc. or its affiliates. 核融合炉・・・ではないが化学プラント制御の事例
33 横河電気と ENEOS マテリアル (※) が 1 年間にわたる強化学習による化学プラントの自律制御に成功し、使用されていたアルゴリズム (FKDPP) を正式採用。 1 年間の安定稼働に加え、環境負荷の低減や人間の負荷の削減、環境のばらつきにも頑健であることを確認。 “【ENEOSマテリアル/横河電機】世界初強化学習AIが化学プラントに正式採用” より引用 ※当初 JSR と進めていたが、 ENEOS によるエラストマー事業の買収により ENEOS マテリアルとして承継された。

目的を事例 (データ) でなく関数 (ルール) で表現したい場合に強化学習が有効 • ChatGPT あるべき返答を逐一事例で提示するのは困難 • AlphaDev あらゆるアルゴリズムの組み合わせを全て評価するのは困難 • 核融合炉制御/プラント制御各状態で望ましい制御を逐一事例で提示するのは困難

「枯れた」手法が着実に応用例を重ねている • ChatGPT (Instruct GPT) で使用された PPO は 2017 年発表。 • AlphaDev で使用された AlphaZero は 2017 年発表。 • 核融合炉制御で使用されている MPO は 2018 年発表、プラント制御で使用されている FKDPP は 2018 年発表。 AlphaZero 以外は、既存の戦略と大きく離れないように更新していくという点で結構近い。近年話題の Transformer を応用した研究はあるが、 2023 年時点ではぱっとしない ( ※ ) 。 ※ “A Survey on Transformers in Reinforcement Learning” を参照

3 つの弱点を克服するアプローチ 37 事前学習をしてから転移学習することでサンプル効率を上げる。不安定性が高い Online の学習に対し準備して臨むことで高速 / 効率的な学習を行う。 “AWAC: Accelerating Online Reinforcement Learning with Offline Datasets” より引用 (2020)

事前取得済みのデータが活用できればよいので、事前学習からの転移学習とフェーズを分けず、Online と Offline のデータを組み合わせて学習する手法も提案されている。事前学習 + 転移学習に比べ高速かつ高い精度。モデルに特別な工夫が不要。 “Efficient Online Reinforcement Learning with Offline Data” より引用 (2023) 深層強化学習の 3 つの弱点を克服するアプローチ事前取得済みデータを活用しながら学習する。

© 2023, Amazon Web Services, Inc. or its affiliates. state
(s) と outcome (ω) から、実行されるべき action (a) を予測。オフライン強化学習の一種。現時点で統一された名前がないようで、引用記事では “RL via supervised learning”と呼称している。 39 “Offline RL Made Easier: No TD Learning, Advantage Reweighting, or Transformers” より引用 state / next state / action の 3 つ組データ (Replay Buffer) があれば学習できる。予測する時は望ましい outcome を入力して行動を予測する。MLP ベースかつ Replay Buffer への重みづけなしで十分な精度 (Transformer より優位) 。深層強化学習の 3 つの弱点を克服するアプローチ (安定する) 教師有り学習の枠組みで強化学習を解く

© 2023, Amazon Web Services, Inc. or its affiliates. 力技の解決:
シミュレーターがあればサンプル効率が悪くても (1/2) • ChatGPT • GPT-3 / InstructGPT を公開することで強化学習用 (報酬モデルの作成 + PPO) 用に 57,728 件の学習データ、30,584 件の検証用データを収集。これにアノテーションデータも追加している。 • 実サービスを公開して「現実に近い (= シミュレーション ) 」データを集めている。 • AlphaDev • ソートは実際動かして実行時間を計測できる 41

© 2023, Amazon Web Services, Inc. or its affiliates. 力技の解決:
シミュレーターがあればサンプル効率が悪くても (2/2) • 核融合炉 / プラント制御 • シミュレーターが存在。プラント制御の事例では、手法の前にシミュレーターを作成している ( Vinyl Acetate Monomer (VAM) Plant Model: A New Benchmark Problem for Control and Operation Study )。 42

© 2023, Amazon Web Services, Inc. or its affiliates. 今後強化学習界隈で起こることを期待したいできごと
• 汎用的な事前取得済みデータの構築 • 様々なタスクに効く事前学習済みデータセットがあれば、応用がしやすくなる。他分野で構築されている事前学習済みモデルも作れるようになる。 • 生成系 AI によるシミュレーターの自動構築 • シミュレーター職人に高速な C/C++ で作ってもらうには限界があるので、画像 / 動画などから自動的に Unity 上などに動作環境を構築できる技術の発明を期待。 44

© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Thank you! © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Web Services, AWS, the Powered by AWS logo, and all AWS service names used in this slide deck are trademarks of Amazon.com, Inc. or its affiliates.

ゲームから飛び出した強化学習は、今輝いているか

ゲームから飛び出した強化学習は、今輝いているか

More Decks by Takahiro Kubo

Other Decks in Research

Featured

Transcript