Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ゲームから飛び出した強化学習は、今輝いているか
Search
Takahiro Kubo
PRO
July 20, 2023
Research
4
2.7k
ゲームから飛び出した強化学習は、今輝いているか
「Python で学ぶ強化学習 」の内容を紹介しつつ、書籍を通じ願っていた「強化学習の実世界応用 」がどこまで進んでいるか、今後どうなるかまとめた資料です。
Takahiro Kubo
PRO
July 20, 2023
Tweet
Share
More Decks by Takahiro Kubo
See All by Takahiro Kubo
AWS の生成 AI 最前線 : 顧客起点のイノベーション
icoxfog417
PRO
0
920
Amazon Personalize Prototyping Camp 自習資料
icoxfog417
PRO
1
260
Amazon 流のプロダクトマネジメント @ Product DeepLive 会場 + 懇親会スポンサーセッション
icoxfog417
PRO
3
480
インフラだけではない MLOps の話 @事例でわかるMLOps 機械学習の成果をスケールさせる処方箋 発売記念
icoxfog417
PRO
2
620
100 以上の生成 AI 事例に見るビジネスインパクト創出の方程式
icoxfog417
PRO
1
6.7k
プロダクトを成長させる生成 AI のユースケース発見ワークショップ vol.3
icoxfog417
PRO
1
440
事例から見るプロダクトでの生成 AI 活用のポイント
icoxfog417
PRO
3
2.7k
Prompt Tuning から Fine Tuning への移行時期推定
icoxfog417
PRO
18
8.9k
LLM勉強会様向け サーバレスンハンズオン
icoxfog417
PRO
0
180
Other Decks in Research
See All in Research
Tiaccoon: コンテナネットワークにおいて複数トランスポート方式で統一的なアクセス制御
hiroyaonoe
0
140
LiDARとカメラのセンサーフュージョンによる点群からのノイズ除去
kentaitakura
0
180
システムから変える 自分と世界を変えるシステムチェンジの方法論 / Systems Change Approaches
dmattsun
3
900
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
sansan_randd
1
350
文化が形作る音楽推薦の消費と、その逆
kuri8ive
0
200
LLM時代にLabは何をすべきか聞いて回った1年間
hargon24
1
530
Weekly AI Agents News! 10月号 論文のアーカイブ
masatoto
1
400
国際会議ACL2024参加報告
chemical_tree
1
350
データサイエンティストをめぐる環境の違い 2024年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
790
医療支援AI開発における臨床と情報学の連携を円滑に進めるために
moda0
0
120
秘伝:脆弱性診断をうまく活用してセキュリティを確保するには
okdt
PRO
4
770
Global Evidence Summit (GES) 参加報告
daimoriwaki
0
190
Featured
See All Featured
A Philosophy of Restraint
colly
203
16k
We Have a Design System, Now What?
morganepeng
51
7.3k
Typedesign – Prime Four
hannesfritz
40
2.4k
Site-Speed That Sticks
csswizardry
2
190
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
The World Runs on Bad Software
bkeepers
PRO
65
11k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
44
9.3k
Side Projects
sachag
452
42k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
Building Flexible Design Systems
yeseniaperezcruz
327
38k
Transcript
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. ゲームから飛び出した強化学習は、 今輝いているか Reinforcement learning after 2019 久保 隆宏 アマゾンウェブサービスジャパン合同会社 機械学習デベロッパーリレーションズ
© 2023, Amazon Web Services, Inc. or its affiliates. 本日お話しすること
2 20 ~ 30 代の 50% 以上が「タイパ」を意識し、 5 割が動画の倍速再生を実施する中、 強化学習は学んだ方がいいのか ? 出典 : “ヴァリューズと三菱UFJ信託銀行、「タイパ」行動について調査/実践率が高いのは20代男性・30代女性” を判断する参考情報
© 2023, Amazon Web Services, Inc. or its affiliates. 本日お話しすること
3 強化学習に関心を持っている方に対し、「 Pythonで学ぶ強化学習 」 を手に取って頂くメリットをお伝えします。 その後強化学習の最近の応用事例に触れ、書籍を通じ願っていた 「強化学習の実世界応用」がどこまで進んでいるか、今後どうなるか 私見をお伝えできればと思います。 ※「私見」とある通り、本日お話しする内容は Amazon および AWS の公式見解というわけではありません。
© 2023, Amazon Web Services, Inc. or its affiliates. 4
自己紹介 アマゾン ウェブ サービス ジャパン合同会社 Machine Learning Developer Relations 久保隆宏 (Kubo Takahiro) ミッション 「機械学習を実用するなら AWS 」という認知を拡大すること。 現在、プロダクト開発チーム向けに機械学習のプロダクト応用ができるようになる ためのワークショップ「 ML Enablement Workshop 」を推進。 10 年以上の業務 コンサルタント経験、また研究開発していたテーマをプロダクトとしてリリースし た経験を活かしながら活動中。
© 2023, Amazon Web Services, Inc. or its affiliates. 「
Python で学ぶ強化学習」を執筆以後 5 執筆時は前職の研究開発部門に所属。 その後、専門だった自然言語処理を用い企業の 開示文書を分析する研究を推進。事業部門に異 動しプロダクト化に取り組み、リリース。 機械学習をプロダクトに活かす難しさを痛感。 ビジネスに役立てるにはどうすればいいのか ? を探るべく文字通りアマゾンの奥地へ旅立ち今 に至る。
© 2023, Amazon Web Services, Inc. or its affiliates. AWS
の Developer Relations として進めているワークショップ: ML Enablement Workshop 6 6 自社プロダクトの成長 を狙うチームが、機械学習の使いどころを学び、 実行可能な計画 を立てられるようになることが目的の無償ワークショップ。 https://github.com/aws-samples/aws-ml-enablement-workshop 2023/7/20 時点で、AWS Japan 内で最多の Star 数
© 2023, Amazon Web Services, Inc. or its affiliates. 書籍を執筆した時から変わらず思っていること
7 機械学習を実際のプロダクトで役立てる人 =ML Product Manager (ML PdM) を 増やしたい。 ML PdM とは ? という方はぜひ 「ChatGPT IN ACTION #2 大規模言語モデルがつくる新しい顧客体験」での LayerX 松村さんの講演を見て頂ければ。 プロダクトマネージャーのコミュニティ「プロダクト筋トレ」でも活動中です。
© 2023, Amazon Web Services, Inc. or its affiliates. 最近執筆した記事や登壇
8 • 日本の AI 導入効果がアメリカの7分の1程度しかないのはなぜなのか • note で 2 万 View 。 2023 年 1 月初週で最も読まれた記事に。 • プロダクト開発と研究の境界を越え機械学習を活かすチームになる • 35,000 人の参加する AWS Summit で講演(動画) • 機械学習プロジェクトの約 80 %が失敗するのは伊達ではないと実感 したが、現実に負けないワークショップに挑戦する • プロダクトの成長をリードする生成系 AI の活用戦略
© 2023, Amazon Web Services, Inc. or its affiliates. Agenda
9 1. 「Pythonで学ぶ強化学習」はどんな書籍か 2. 近年の強化学習の応用事例 3. 今後の強化学習発展の見通し
© 2023, Amazon Web Services, Inc. or its affiliates. Agenda
10 1. 「Pythonで学ぶ強化学習」はどんな書籍か 2. 近年の強化学習の応用事例 3. 今後の強化学習発展の見通し
© 2023, Amazon Web Services, Inc. or its affiliates. Python
で学ぶ強化学習概要 11 現時点で初版から数えると 8 刷 ( 多分 )。 中国語版も出版されています。 • 2019 年 1 月 第 1 刷 • 2019 年 2 月 第 3 刷 • 2019 年 9 月 20 日 改定2版 第 1 刷 • 2022 年 6 月 16 日 改定2版 第 5 刷
© 2023, Amazon Web Services, Inc. or its affiliates. Python
で学ぶ強化学習の構成 12 • Day1 強化学習の位置づけを知る • Day2 強化学習の解法 (1) 環境から計画を立てる • Day3 強化学習の解法 (2) 経験から計画を立てる • Day4 強化学習に対するニューラルネットワークの適用 • Day5 強化学習の弱点 • Day6 強化学習の弱点を克服するための手法 • Day7 強化学習の活用領域
© 2023, Amazon Web Services, Inc. or its affiliates. Python
で学ぶ強化学習の構成 13 • Day1 強化学習の位置づけを知る • Day2 強化学習の解法 (1) 環境から計画を立てる • Day3 強化学習の解法 (2) 経験から計画を立てる • Day4 強化学習に対するニューラルネットワークの適用 • Day5 強化学習の弱点 • Day6 強化学習の弱点を克服するための手法 • Day7 強化学習の活用領域 Day1 ~ Day3 で強化学習の基本的な仕組みと、モデルベース、 モデルフリーの基礎的な手法を解説。
© 2023, Amazon Web Services, Inc. or its affiliates. モデルベースとモデルフリーのイメージ
14 Stable Diffusion 2.1 で画像を生成 環境の情報 ( 報酬関数と遷移関数 ) が 既知の時、強化学習エージェントは一切 動かさず最適な行動計画を立てられる。 強化学習エージェントを環境の中で実際 に動かし、様々な状態で取った行動の報 酬から行動計画を立てる。
© 2023, Amazon Web Services, Inc. or its affiliates. Python
で学ぶ強化学習の構成 15 • Day1 強化学習の位置づけを知る • Day2 強化学習の解法 (1) 環境から計画を立てる • Day3 強化学習の解法 (2) 経験から計画を立てる • Day4 強化学習に対するニューラルネットワークの適用 • Day5 強化学習の弱点 • Day6 強化学習の弱点を克服するための手法 • Day7 強化学習の活用領域 Day4 で深層強化学習について解説
© 2023, Amazon Web Services, Inc. or its affiliates. 状態を認識して行動を評価する過程を深層学習でモデル化す
ることで、 Atari のゲームで人を超えるプレイを見せる。 16 “Playing Atari with Deep Reinforcement Learning” を参照 ゲームの画面は ROCKMAN より引用
© 2023, Amazon Web Services, Inc. or its affiliates. Python
で学ぶ強化学習の構成 17 • Day1 強化学習の位置づけを知る • Day2 強化学習の解法 (1) 環境から計画を立てる • Day3 強化学習の解法 (2) 経験から計画を立てる • Day4 強化学習に対するニューラルネットワークの適用 • Day5 強化学習の弱点 • Day6 強化学習の弱点を克服するための手法 • Day7 強化学習の活用領域 Day5 で深層強化学習の 3 つの弱点の解説
© 2023, Amazon Web Services, Inc. or its affiliates. 深層強化学習の
3 つの弱点 18 サンプル効率が低い 過学習する 再現性が低い 人間なら数分でゲームを プレイする方法を学べるが、 強化学習では数十~百数時間 分のフレームが必要 (※1) ゲームの配色が変わると動 けなくなったり、報酬を最 大化するために予測できな い行動をとる (※2, 3) 同じアルゴリズムと パラメーターでも有意差が 出るレベルの性能差が 出ることがある(※4) ※1: Rainbow: Combining Improvements in Deep Reinforcement Learning ※2: A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning ※3: Faulty reward functions in the wild ※4: Deep Reinforcement Learning that Matters
© 2023, Amazon Web Services, Inc. or its affiliates. Python
で学ぶ強化学習の構成 19 • Day1 強化学習の位置づけを知る • Day2 強化学習の解法 (1) 環境から計画を立てる • Day3 強化学習の解法 (2) 経験から計画を立てる • Day4 強化学習に対するニューラルネットワークの適用 • Day5 強化学習の弱点 • Day6 強化学習の弱点を克服するための手法 • Day7 強化学習の活用領域 Day6 で弱点を克服するための表現学習、進化戦略、模倣学習/逆強 化学習について解説。 Day7 で今後の活用領域について解説。
© 2023, Amazon Web Services, Inc. or its affiliates. 深層強化学習の
3 つの弱点を克服するアプローチ 20 サンプル効率の改善 過学習する 再現性が低い ・戦略の改善 様々なネットワーク ・状態認識の改善 表現学習など ・人からの教示 模倣学習 逆強化学習 ・異なる学習方法 進化戦略など
© 2023, Amazon Web Services, Inc. or its affiliates. Python
で学ぶ強化学習の特徴 2022 年の書籍にもない弱点と克服手法を実装付きでカバー 21 本書 他書籍A 他書籍B 他書籍C 他書籍D 出版年 2019 2018 2019 2022 2022 理論 〇 〇 ◎ 数理中心 ◎ 非常に丁寧 ◎ 鉄板の原著 実装 〇 〇 実装例が豊富 - △ DNNは独自FW - 機械学習の基礎 Day1 – Day3 〇 〇 〇 ◎ ◎ 深層強化学習 Day4 〇 〇 〇 〇 - 強化学習の弱点 Day5 〇 - - - - 弱点克服の手法 Day6 ◎ 複数手法を提示 - - - - 今後の展望 Day7 〇 - △ - 〇
© 2023, Amazon Web Services, Inc. or its affiliates. Python
で学ぶ強化学習の特徴 2022 年の書籍にもない弱点と克服手法を実装付きでカバー 22 執筆後、頂いてうれしかった Amazon のレビュー 「(前略) ・後半,強化学習の弱点や逆強化学習などの応用的・発展 的な話題に触れている,Dyna・進化的方法・模倣学習・逆強化学習 の実装例が載っているのは良い.現時点ではこれらをコードまで含 めてマトモに扱っている書籍は洋書まで含めても存在していなかっ たかと思う(ブログとかGitには転がってると思いますけど).個人 的には6章だけでも値段分の価値はあった.」
© 2023, Amazon Web Services, Inc. or its affiliates. Python
で学ぶ強化学習の特徴 2022 年の書籍にもない弱点と克服手法を実装付きでカバー 23 その他頂いた、本書の特徴を表すレビュー • 数式の導出や実装を勉強するのは他を当たるのがいいです。 • Python はわかるが強化学習は初めて、強化学習は勉強したことがあ るが、実際にプログラムを組みあげる方針がわからないという方に おすすめできます。
© 2023, Amazon Web Services, Inc. or its affiliates. 「Pythonで学ぶ強化学習」はどんな書籍か
? 実際のアプリケーションで強化学習を活用したいと考えてい る開発者の方が、実装を通じ強化学習を理解し、応用する上 での注意点や対策を学ぶのに適した本。 向いていないユースケース • 強化学習の理論をしっかり学びたい • アプリケーション開発の経験がなく、 Python は初めて 24
© 2023, Amazon Web Services, Inc. or its affiliates. 「Pythonで学ぶ強化学習」はどんな書籍か
? (余談) 本書の謝辞に ELLEGARDEN についての感謝と活動再開へ の喜びが書かれていますが、 2019 年から 4 年、家族の理 解もありとうとうライブに行 くことができました。 ※ ELLEGARDEN を知らない方は ぜひ聴いてください。 ZOZO マリ ン当選の方おめでとうございます 25 投影のみ
© 2023, Amazon Web Services, Inc. or its affiliates. Agenda
26 1. 「Pythonで学ぶ強化学習」はどんな書籍か 2. 近年の強化学習の応用事例 3. 今後の強化学習発展の見通し
© 2023, Amazon Web Services, Inc. or its affiliates. 近年の代表的な機械学習の応用事例
• ChatGPT • AlphaDev • 核融合炉の制御の実験 (DeepMind + Swiss Plasma Center) 27
© 2023, Amazon Web Services, Inc. or its affiliates. ChatGPT
(1/3) ChatGPT の前身と なった Instruct GPT を構築する際、指示に 対し適切な出力を学習 させるだけでなく、人 の好む出力をするよう 学習させるのに使用さ れている。 28 “Training language models to follow instructions with human feedback” より引用 教師有り学習により 「何を出力すべきか」 を学習 強化学習により 「何を優先して出力す べきか」を学習 上記の手法は以前から研究されて おり、詳細は Fine-Tuning Language Models from Human Preferences を参照
© 2023, Amazon Web Services, Inc. or its affiliates. ChatGPT
(2/3) GPT-3 の API 、 その後公開さ れた InstructGPT へ寄せられた リクエストに対し、強化学習済 みの PPO/PPO-ptx は教師有り のみのモデルに対し + 0.1 前後 好まれる。 29 “Training language models to follow instructions with human feedback” より引用
© 2023, Amazon Web Services, Inc. or its affiliates. ChatGPT
(3/3) GPT-4 の発表では、タスクの精度 を改善しないものの 誤解に基づく 人の回答 (Adversarial questions) に適切に回答できる精度が上がる としている。効果は GPT-3 よりも 高い。 30 “GPT-4 Technical Report” より引用 Anthropic の “Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned” では、モデルサイズが大きくなるほど 強化学習による制御が有効なことを示唆している。
© 2023, Amazon Web Services, Inc. or its affiliates. AlphaDev
31 囲碁や将棋で成果を収めた Alpha Zero で、最速のソート を実現するアセンブリ言語の 組み合わせを探索。短い系列 だと 70% 速く、 250,000 を 超える系列だと 1.7% 高速な アルゴリズムを発見。 命令の系列は Transformer で ベクトル表現にし、価値関数 としてソートの成立と速度の 2 つを予測する。 “Faster sorting algorithms discovered using deep reinforcement learning” より引用
© 2023, Amazon Web Services, Inc. or its affiliates. 核融合炉制御
32 トカマク型の核融合炉で必要 な磁気によるプラズマの制御 に強化学習を用いる研究。 プラズマの状態に応じた、し かもリアルタイムの制御が必 要。普通の制御技術を組み合 わせると複雑な組み合わせに なるが、強化学習モデル 1 本 で済むとコントローラーを シンプルにできる。 制御者の電圧指令を Replay Buffer に入れて、 シミュレーターで学習。最終的に本番 (!?) にデ プロイして制御する。 “Magnetic control of tokamak plasmas through deep reinforcement learning” より引用
© 2023, Amazon Web Services, Inc. or its affiliates. 核融合炉・・・ではないが化学プラント制御の事例
33 横河電気と ENEOS マテリアル (※) が 1 年 間にわたる強化学習による化学プラントの自 律制御に成功し、使用されていたアルゴリズ ム (FKDPP) を正式採用。 1 年間の安定稼働に加え、環境負荷の低減や 人間の負荷の削減、環境のばらつきにも頑健 であることを確認。 “【ENEOSマテリアル/横河電機】世界初 強化学習AIが化学プラントに正式採用” より引用 ※当初 JSR と進めていたが、 ENEOS によるエラストマー事業の買収 により ENEOS マテリアルとして承継された。
© 2023, Amazon Web Services, Inc. or its affiliates. 34
目的を事例 (データ) でなく関数 (ルール) で表現したい場 合に強化学習が有効 • ChatGPT あるべき返答を逐一事例で提示するのは困難 • AlphaDev あらゆるアルゴリズムの組み合わせを全て評価するのは困難 • 核融合炉制御/プラント制御 各状態で望ましい制御を逐一事例で提示するのは困難
© 2023, Amazon Web Services, Inc. or its affiliates. 35
「枯れた」手法が着実に応用例を重ねている • ChatGPT (Instruct GPT) で使用された PPO は 2017 年発表 。 • AlphaDev で使用された AlphaZero は 2017 年発表。 • 核融合炉制御で使用されている MPO は 2018 年発表、プラント 制御で使用されている FKDPP は 2018 年発表。 AlphaZero 以外は、既存の戦略と大きく離れないように更新してい くという点で結構近い。 近年話題の Transformer を応用した研究はあるが、 2023 年時点ではぱっとしない ( ※ ) 。 ※ “A Survey on Transformers in Reinforcement Learning” を参照
© 2023, Amazon Web Services, Inc. or its affiliates. Agenda
36 1. 「Pythonで学ぶ強化学習」はどんな書籍か 2. 近年の強化学習の応用事例 3. 今後の強化学習発展の見通し
© 2023, Amazon Web Services, Inc. or its affiliates. 深層強化学習の
3 つの弱点を克服するアプローチ 37 事前学習をしてから転移学習することでサンプル効率を上げる。 不安定性が高い Online の学習に対し準備して臨むことで高速 / 効率 的な学習を行う。 “AWAC: Accelerating Online Reinforcement Learning with Offline Datasets” より引用 (2020)
© 2023, Amazon Web Services, Inc. or its affiliates. 38
事前取得済みのデータが活用できればよいの で、事前学習からの転移学習とフェーズを分 けず、Online と Offline のデータを組み合わ せて学習する手法も提案されている。 事前学習 + 転移学習に比べ高速かつ高い精度。 モデルに特別な工夫が不要。 “Efficient Online Reinforcement Learning with Offline Data” より引用 (2023) 深層強化学習の 3 つの弱点を克服するアプローチ 事前取得済みデータを活用しながら学習する。
© 2023, Amazon Web Services, Inc. or its affiliates. state
(s) と outcome (ω) から、実行されるべき action (a) を予測。 オフライン強化学習の一種。現時点で統一された名前がないようで、引用記事で は “RL via supervised learning”と呼称している。 39 “Offline RL Made Easier: No TD Learning, Advantage Reweighting, or Transformers” より引用 state / next state / action の 3 つ組データ (Replay Buffer) があれば学習できる。 予測する時は望ましい outcome を入力して行動を 予測する。MLP ベースかつ Replay Buffer への重 みづけなしで十分な精度 (Transformer より優位) 。 深層強化学習の 3 つの弱点を克服するアプローチ (安定する) 教師有り学習の枠組みで強化学習を解く
© 2023, Amazon Web Services, Inc. or its affiliates. 事前に人間やエージェント自身
で取得したデータの活用が鍵 40 深層強化学習の 3 つの弱点を克服するアプローチ
© 2023, Amazon Web Services, Inc. or its affiliates. 力技の解決:
シミュレーターがあればサンプル効率が悪くても (1/2) • ChatGPT • GPT-3 / InstructGPT を公開することで強化学習用 (報酬モデルの作成 + PPO) 用に 57,728 件の学習データ、30,584 件の検証用データを収集。 これにアノテーションデータも追加している。 • 実サービスを公開して「現実に近い (= シミュレーション ) 」データを集 めている。 • AlphaDev • ソートは実際動かして実行時間を計測できる 41
© 2023, Amazon Web Services, Inc. or its affiliates. 力技の解決:
シミュレーターがあればサンプル効率が悪くても (2/2) • 核融合炉 / プラント制御 • シミュレーターが存在。プラント制御の事例では、手法の前にシミュレー ターを作成している ( Vinyl Acetate Monomer (VAM) Plant Model: A New Benchmark Problem for Control and Operation Study )。 42
© 2023, Amazon Web Services, Inc. or its affiliates. プログラムで動かせる環境が
準備出来るかが鍵 43 力技の解決
© 2023, Amazon Web Services, Inc. or its affiliates. 今後強化学習界隈で起こることを期待したいできごと
• 汎用的な事前取得済みデータの構築 • 様々なタスクに効く事前学習済みデータセットがあれば、 応用がしやすくなる。他分野で構築されている事前学習 済みモデルも作れるようになる。 • 生成系 AI によるシミュレーターの自動構築 • シミュレーター職人に高速な C/C++ で作ってもらうに は限界があるので、画像 / 動画などから自動的に Unity 上などに動作環境を構築できる技術の発明を期待。 44
© 2023, Amazon Web Services, Inc. or its affiliates. Are
you interested in Reinforcement Learning ? 45
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Thank you! © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Web Services, AWS, the Powered by AWS logo, and all AWS service names used in this slide deck are trademarks of Amazon.com, Inc. or its affiliates.