Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
A Deep Reinforcement Learning Chatbot
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
hasewo
November 27, 2017
Research
1
870
A Deep Reinforcement Learning Chatbot
Nextremer11月論文読み会の資料です。
連絡先:
[email protected]
twitter:@hasewogamer
hasewo
November 27, 2017
Tweet
Share
More Decks by hasewo
See All by hasewo
『これからの強化学習』3.7
hasewo
0
940
Other Decks in Research
See All in Research
2026.01ウェビナー資料
elith
0
310
言語モデルから言語について語る際に押さえておきたいこと
eumesy
PRO
4
1.5k
一般道の交通量減少と速度低下についての全国分析と熊本市におけるケーススタディ(20251122 土木計画学研究発表会)
trafficbrain
0
180
Collective Predictive Coding and World Models in LLMs: A System 0/1/2/3 Perspective on Hierarchical Physical AI (IEEE SII 2026 Plenary Talk)
tanichu
1
310
Multi-Agent Large Language Models for Code Intelligence: Opportunities, Challenges, and Research Directions
fatemeh_fard
0
140
ローテーション別のサイドアウト戦略 ~なぜあのローテは回らないのか?~
vball_panda
0
300
2026-01-30-MandSL-textbook-jp-cos-lod
yegusa
1
710
LiDARセキュリティ最前線(2025年)
kentaroy47
0
300
IEEE AIxVR 2026 Keynote Talk: "Beyond Visibility: Understanding Scenes and Humans under Challenging Conditions with Diverse Sensing"
miso2024
0
130
The mathematics of transformers
gpeyre
0
130
Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
satai
3
220
A History of Approximate Nearest Neighbor Search from an Applications Perspective
matsui_528
1
200
Featured
See All Featured
We Are The Robots
honzajavorek
0
200
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
1
1.4k
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.1k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
640
Writing Fast Ruby
sferik
630
63k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.8k
Automating Front-end Workflow
addyosmani
1370
200k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
52k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.2k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
110
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
0
180
Transcript
Nextremer Co., LTD. Confidential Document Nextremer 2017/08/31 1 A Deep
Reinforecement Learning Chatbot 2017/ 11/25 nextremerエンジニア 酒井正⼈ 1
⽬次 • 概要 • どんなもの? • Amazon Alexa Prize •
MIRABOT • どんな技術を使ってる? • 22個の対話モデル(Appendixへ) • 最適化アルゴリズム • 検証⽅法 • ABテスト • 所感 • Appendix:22個の対話モデル解説 2017/11/25 Nextremer Co., LTD. Confidential Document 2
概要 Amazonが主宰する対話モデルのコンペティション(Amazon Alexa Prize)で、深層強化学習を⽤いることで20分以上の⼈間との雑談 対話を達成したモデルを紹介します 2017/11/25 Nextremer Co., LTD. Confidential
Document 3
4 Amazon Alexa Prize
Amazon Alexa Prize わかりやすい対話をなるべく⻑く続ける ソーシャルボットのコンペティション • 優勝者には$500, 000 • 優勝したボットが20分以上対話できる場合は
ボーナス$1,000,000 2017/11/25 Nextremer Co., LTD. Confidential Document 5
論⽂で紹介しているモデル • アンサンブル対話モデル:MIRABOT • 22個の対話モデルを搭載 • テンプレートベース • 検索ベース •
⽣成ベース • 深層強化学習により最適な返答を選択 2017/11/25 Nextremer Co., LTD. Confidential Document 6
どんなもの? 2017/11/25 Nextremer Co., LTD. Confidential Document 7
どんなもの? 2017/11/25 Nextremer Co., LTD. Confidential Document 8 22個の対話モデルが⼀ ⻫に応答候補を出⼒し
ます Automatic Speech Recognition の信頼度 閾値より低い場合はユーザーに聞 き返します 強化学習で応答の候 補を選択します 候補をもとに応 答を最適化しま す 優先度のある候補があれ ばそれを出⼒します
会話の様⼦ 2017/11/25 Nextremer Co., LTD. Confidential Document 9
10 最適化モデル
最適化法① Supervised AMT • クラウドソーシングでアノテーションされたデータ をもとに教師ありニューラルネット学習 • t-1の会話の履歴と応答の候補を⼊⼒ • t時点での各応答に対するスコアを算出する
vAmazonMechanicalTurk https://aws.amazon.com/jp/mturk/ 2017/11/25 Nextremer Co., LTD. Confidential Document 11
最適化法① Supervised AMT テスト • モデルが選択した応答がどの程度良いか • ⽐較対象 • ランダム
• Alice bot • Evi bot + Alice bot • 結果 • 分布が多少なだらかに 2017/11/25 Nextremer Co., LTD. Confidential Document 12
最適化法② Supervised Learned Reward Supervised AMTにおいて、ラベルの値をそのま ま使う代わりに という関数で線形近似している • Alexaのリアルユーザーを想定してのこと?
2017/11/25 Nextremer Co., LTD. Confidential Document 13
強化学習の⽤語 2017/11/25 Nextremer Co., LTD. Confidential Document 14 右図では、マリオが行動する主体(エージェント) 陸地、ブロック(環境)
停止、(左右に)歩くor走る、ジャンプ(行動) ジャンプ→ブロックからコインがでる(状態) コインが得られる(報酬) マリオの行動を最適化する作戦(方策) ステージクリア後得られるコインや点数(収益) 強化学習の⽬的は収益の最⼤化=⽅策の最適化
価値反復による最適⽅策の求め⽅ 2017/11/25 Nextremer Co., LTD. Confidential Document 15
⽅策勾配による最適⽅策の求め⽅ 価値反復とは異なるアプローチとして、⽅策を⾏動価値関数とは別 のパラメータで表現する。 ⽅策勾配では確率的⽅策をパラメータベクトルθによってパラメタ ライズされた確率モデル" と考え、これをθについて最適化 することで強化学習問題を解く。 2017/11/25 Nextremer Co.,
LTD. Confidential Document 16 前述のマリオのパターンは状態や行 動が離散化しやすいケースだった。 しかし、右図のようなゴルフゲーム の場合は、カップまでの距離や風の 強さ(風向き)、スイングの強さが 連続値になってしまう。 離散化が荒いと情報量が減り、細か すぎると計算量が膨大になる。
⽅策勾配による最適⽅策の求め⽅ 期待収益を⽬的関数J として、これを最⼤化する確率的⽅策" を 求める θ ← θ + α▽θ
J(θ) ①⽅策" による⾏動 ②⽅策" の評価 ③⽅策" の更新 のステップを繰り返し期待収益Jの勾配を求めてθを更新 αは学習率 2017/11/25 Nextremer Co., LTD. Confidential Document 17
最適化法③④ • Off-policy REINFORCE • Off-policy REINFORCE with Learned Reward
Function 2017/11/25 Nextremer Co., LTD. Confidential Document 18 cは重要度で、今まで学習し た⽅策と同じかどうかをみ る。⼀致していると下がり、 新しいものだとあがる。 次の発話でユーザーがネガ ティブな反応をした場合報 酬は0。それ以外は、今ま での総利益からターン数を 割る。
最適化法⑤ Q-learning with the Abstract Discourse Markov Decision Process •
マルコフ決定過程(MDP) • 状態遷移が確率的に⽣じるモデル • 状態遷移がマルコフ性を満たす vマルコフ性: 将来の状態が現在の状態のみに依存し、 過去のいかなる状態にも依存しない性質 2017/11/25 Nextremer Co., LTD. Confidential Document 19
最適化法⑤ Abstract Discourse Markov Decision Process 2017/11/25 Nextremer Co., LTD.
Confidential Document 20
最適化法⑤ Abstract Discourse Markov Decision Process 2017/11/25 Nextremer Co., LTD.
Confidential Document 21 zはここでは状態 ユーザー発話の種 類、感情、⼀般性、 トピックの独⽴性 など hは履歴、aは⾏動、 rは得られる報酬 y = {very poor, poor, acceptable, good, excellent}
最適化法⑤ 学習⽅法はε-greedy法 学習する段階で最も報酬の⾼い⽅策を選びつつ、 ⼀定の確率でランダムな⽅策を試す 本論⽂では10% → 10回に⼀回ランダム 2017/11/25 Nextremer Co.,
LTD. Confidential Document 22
参考:最適化法ごとの対話モデル選択率 2017/11/25 Nextremer Co., LTD. Confidential Document 23
24 評価
A/Bテスト • ⼀回⽬ • ⼆回⽬ 2017/11/25 Nextremer Co., LTD. Confidential
Document 25
所感 • 既存の技術を組み合わせるだけで結構強い • 対話モデル・⾃然⾔語処理・強化学習を⼀気におさらいできた • 読むのは⼤変だった • もっと深く掘り下げられると思うし、初⼼者から上級者の⼈でも 何かしら得るものがあると思うので、トライしてみてください
2017/11/25 Nextremer Co., LTD. Confidential Document 26
27 Appendix: 搭載されている対話モデルの紹介
テンプレートベース • Elizabot 2017/11/25 Nextremer Co., LTD. Confidential Document 28
テンプレートベース • AliceBOT 2017/11/25 Nextremer Co., LTD. Confidential Document 29
テンプレートベース • Initiatorbot • 会話のきっかけをつくるbot • ”What did you do
today?”や”Do you have a pets?”など • Storybot • ユーザーのリクエストで童話について話す • タイトル • あらすじ • 著者名 • Evibot • ⼊⼒⽂の”Who”とか”What”に反応 • wikipediaから答えを持ってきたりできる • BoWMovies • 映画の会話 2017/11/25 Nextremer Co., LTD. Confidential Document 30
探索ベースニューラルネットワーク • VHRED models • encoder-decoderベースの対話モデル • 意味の解析→単語の⽣成 • 埋め込みベクトルはGloVe
• 複数のジャンルを学習し、それぞれモデル化 • Reddit • 政治 • ニュース • スポーツ • 映画 • 映画のサブタイトル • ワシントンポスト 2017/11/25 Nextremer Co., LTD. Confidential Document 31
探索ベースニューラルネットワーク • SkipThoughtBooks • SkipThought • 教師なし学習で⽂をベクトル化する san in 引⽤
http://ksksksks2.hatenadiary.jp/entry/20160424/1461494269 2017/11/25 Nextremer Co., LTD. Confidential Document 32
探索ベースニューラルネットワーク • Bag-of-words Retrieval Models • トランプ⼤統領のツイッターを学習 • BoWEscapePlan •
他のモデルで回答できなかったときのパターン • ロジスティック回帰を⽤いている? • LSTMClassifierMSMarco • bi-LSTM • microsoftが公開した質問応答のデータセット 2017/11/25 Nextremer Co., LTD. Confidential Document 33