A Deep Reinforcement Learning Chatbot

Nextremer Co., LTD. Confidential Document Nextremer 2017/08/31 1 A Deep
Reinforecement Learning Chatbot 2017/ 11/25 nextremerエンジニア酒井正⼈ 1

⽬次 • 概要 • どんなもの？ • Amazon Alexa Prize •
MIRABOT • どんな技術を使ってる？ • 22個の対話モデル（Appendixへ） • 最適化アルゴリズム • 検証⽅法 • ABテスト • 所感 • Appendix:22個の対話モデル解説 2017/11/25 Nextremer Co., LTD. Confidential Document 2

概要 Amazonが主宰する対話モデルのコンペティション（Amazon Alexa Prize）で、深層強化学習を⽤いることで20分以上の⼈間との雑談対話を達成したモデルを紹介します 2017/11/25 Nextremer Co., LTD. Confidential
Document 3

4 Amazon Alexa Prize

Amazon Alexa Prize わかりやすい対話をなるべく⻑く続けるソーシャルボットのコンペティション • 優勝者には$500, 000 • 優勝したボットが20分以上対話できる場合は
ボーナス$1,000,000 2017/11/25 Nextremer Co., LTD. Confidential Document 5

論⽂で紹介しているモデル • アンサンブル対話モデル：MIRABOT • 22個の対話モデルを搭載 • テンプレートベース • 検索ベース •
⽣成ベース • 深層強化学習により最適な返答を選択 2017/11/25 Nextremer Co., LTD. Confidential Document 6

どんなもの？ 2017/11/25 Nextremer Co., LTD. Confidential Document 7

どんなもの？ 2017/11/25 Nextremer Co., LTD. Confidential Document 8 22個の対話モデルが⼀⻫に応答候補を出⼒し
ます Automatic Speech Recognition の信頼度閾値より低い場合はユーザーに聞き返します強化学習で応答の候補を選択します候補をもとに応答を最適化します優先度のある候補があればそれを出⼒します

会話の様⼦ 2017/11/25 Nextremer Co., LTD. Confidential Document 9

10 最適化モデル

最適化法① Supervised AMT • クラウドソーシングでアノテーションされたデータをもとに教師ありニューラルネット学習 • t-1の会話の履歴と応答の候補を⼊⼒ • t時点での各応答に対するスコアを算出する
vAmazonMechanicalTurk https://aws.amazon.com/jp/mturk/ 2017/11/25 Nextremer Co., LTD. Confidential Document 11

最適化法① Supervised AMT テスト • モデルが選択した応答がどの程度良いか • ⽐較対象 • ランダム
• Alice bot • Evi bot + Alice bot • 結果 • 分布が多少なだらかに 2017/11/25 Nextremer Co., LTD. Confidential Document 12

最適化法② Supervised Learned Reward Supervised AMTにおいて、ラベルの値をそのまま使う代わりにという関数で線形近似している • Alexaのリアルユーザーを想定してのこと？
2017/11/25 Nextremer Co., LTD. Confidential Document 13

強化学習の⽤語 2017/11/25 Nextremer Co., LTD. Confidential Document 14 右図では、マリオが行動する主体（エージェント）陸地、ブロック（環境）
停止、(左右に）歩くor走る、ジャンプ（行動）ジャンプ→ブロックからコインがでる（状態）コインが得られる（報酬）マリオの行動を最適化する作戦（方策）ステージクリア後得られるコインや点数（収益）強化学習の⽬的は収益の最⼤化＝⽅策の最適化

価値反復による最適⽅策の求め⽅ 2017/11/25 Nextremer Co., LTD. Confidential Document 15

⽅策勾配による最適⽅策の求め⽅価値反復とは異なるアプローチとして、⽅策を⾏動価値関数とは別のパラメータで表現する。⽅策勾配では確率的⽅策をパラメータベクトルθによってパラメタライズされた確率モデル" と考え、これをθについて最適化することで強化学習問題を解く。 2017/11/25 Nextremer Co.,
LTD. Confidential Document 16 前述のマリオのパターンは状態や行動が離散化しやすいケースだった。しかし、右図のようなゴルフゲームの場合は、カップまでの距離や風の強さ（風向き）、スイングの強さが連続値になってしまう。離散化が荒いと情報量が減り、細かすぎると計算量が膨大になる。

⽅策勾配による最適⽅策の求め⽅期待収益を⽬的関数J として、これを最⼤化する確率的⽅策" を求める θ ← θ + α▽θ
J(θ) ①⽅策" による⾏動 ②⽅策" の評価 ③⽅策" の更新のステップを繰り返し期待収益Jの勾配を求めてθを更新 αは学習率 2017/11/25 Nextremer Co., LTD. Confidential Document 17

最適化法③④ • Off-policy REINFORCE • Off-policy REINFORCE with Learned Reward
Function 2017/11/25 Nextremer Co., LTD. Confidential Document 18 cは重要度で、今まで学習した⽅策と同じかどうかをみる。⼀致していると下がり、新しいものだとあがる。次の発話でユーザーがネガティブな反応をした場合報酬は０。それ以外は、今までの総利益からターン数を割る。

最適化法⑤ Q-learning with the Abstract Discourse Markov Decision Process •
マルコフ決定過程（MDP) • 状態遷移が確率的に⽣じるモデル • 状態遷移がマルコフ性を満たす vマルコフ性：将来の状態が現在の状態のみに依存し、過去のいかなる状態にも依存しない性質 2017/11/25 Nextremer Co., LTD. Confidential Document 19

最適化法⑤ Abstract Discourse Markov Decision Process 2017/11/25 Nextremer Co., LTD.
Confidential Document 20

最適化法⑤ Abstract Discourse Markov Decision Process 2017/11/25 Nextremer Co., LTD.
Confidential Document 21 zはここでは状態ユーザー発話の種類、感情、⼀般性、トピックの独⽴性など hは履歴、aは⾏動、 rは得られる報酬 y = {very poor, poor, acceptable, good, excellent}

最適化法⑤ 学習⽅法はε-greedy法学習する段階で最も報酬の⾼い⽅策を選びつつ、⼀定の確率でランダムな⽅策を試す本論⽂では10% → 10回に⼀回ランダム 2017/11/25 Nextremer Co.,
LTD. Confidential Document 22

参考：最適化法ごとの対話モデル選択率 2017/11/25 Nextremer Co., LTD. Confidential Document 23

24 評価

A/Bテスト • ⼀回⽬ • ⼆回⽬ 2017/11/25 Nextremer Co., LTD. Confidential
Document 25

所感 • 既存の技術を組み合わせるだけで結構強い • 対話モデル・⾃然⾔語処理・強化学習を⼀気におさらいできた • 読むのは⼤変だった • もっと深く掘り下げられると思うし、初⼼者から上級者の⼈でも何かしら得るものがあると思うので、トライしてみてください
2017/11/25 Nextremer Co., LTD. Confidential Document 26

27 Appendix: 搭載されている対話モデルの紹介

テンプレートベース • Elizabot 2017/11/25 Nextremer Co., LTD. Confidential Document 28

テンプレートベース • AliceBOT 2017/11/25 Nextremer Co., LTD. Confidential Document 29

テンプレートベース • Initiatorbot • 会話のきっかけをつくるbot • ”What did you do
today?”や”Do you have a pets?”など • Storybot • ユーザーのリクエストで童話について話す • タイトル • あらすじ • 著者名 • Evibot • ⼊⼒⽂の”Who”とか”What”に反応 • wikipediaから答えを持ってきたりできる • BoWMovies • 映画の会話 2017/11/25 Nextremer Co., LTD. Confidential Document 30

探索ベースニューラルネットワーク • VHRED models • encoder-decoderベースの対話モデル • 意味の解析→単語の⽣成 • 埋め込みベクトルはGloVe
• 複数のジャンルを学習し、それぞれモデル化 • Reddit • 政治 • ニュース • スポーツ • 映画 • 映画のサブタイトル • ワシントンポスト 2017/11/25 Nextremer Co., LTD. Confidential Document 31

探索ベースニューラルネットワーク • SkipThoughtBooks • SkipThought • 教師なし学習で⽂をベクトル化する san in 引⽤
http://ksksksks2.hatenadiary.jp/entry/20160424/1461494269 2017/11/25 Nextremer Co., LTD. Confidential Document 32

探索ベースニューラルネットワーク • Bag-of-words Retrieval Models • トランプ⼤統領のツイッターを学習 • BoWEscapePlan •
他のモデルで回答できなかったときのパターン • ロジスティック回帰を⽤いている？ • LSTMClassifierMSMarco • bi-LSTM • microsoftが公開した質問応答のデータセット 2017/11/25 Nextremer Co., LTD. Confidential Document 33

A Deep Reinforcement Learning Chatbot

A Deep Reinforcement Learning Chatbot

hasewo

More Decks by hasewo

Other Decks in Research

Featured

Transcript

Nextremer Co., LTD. Confidential Document Nextremer 2017/08/31 1 A Deep

⽬次 • 概要 • どんなもの？ • Amazon Alexa Prize •

概要 Amazonが主宰する対話モデルのコンペティション（Amazon Alexa Prize）で、深層強化学習を⽤いることで20分以上の⼈間との雑談対話を達成したモデルを紹介します 2017/11/25 Nextremer Co., LTD. Confidential

4 Amazon Alexa Prize

Amazon Alexa Prize わかりやすい対話をなるべく⻑く続けるソーシャルボットのコンペティション • 優勝者には$500, 000 • 優勝したボットが20分以上対話できる場合は

論⽂で紹介しているモデル • アンサンブル対話モデル：MIRABOT • 22個の対話モデルを搭載 • テンプレートベース • 検索ベース •

どんなもの？ 2017/11/25 Nextremer Co., LTD. Confidential Document 7

どんなもの？ 2017/11/25 Nextremer Co., LTD. Confidential Document 8 22個の対話モデルが⼀⻫に応答候補を出⼒し

会話の様⼦ 2017/11/25 Nextremer Co., LTD. Confidential Document 9

10 最適化モデル

最適化法① Supervised AMT • クラウドソーシングでアノテーションされたデータをもとに教師ありニューラルネット学習 • t-1の会話の履歴と応答の候補を⼊⼒ • t時点での各応答に対するスコアを算出する

最適化法① Supervised AMT テスト • モデルが選択した応答がどの程度良いか • ⽐較対象 • ランダム

最適化法② Supervised Learned Reward Supervised AMTにおいて、ラベルの値をそのまま使う代わりにという関数で線形近似している • Alexaのリアルユーザーを想定してのこと？

強化学習の⽤語 2017/11/25 Nextremer Co., LTD. Confidential Document 14 右図では、マリオが行動する主体（エージェント）陸地、ブロック（環境）

価値反復による最適⽅策の求め⽅ 2017/11/25 Nextremer Co., LTD. Confidential Document 15

⽅策勾配による最適⽅策の求め⽅期待収益を⽬的関数J として、これを最⼤化する確率的⽅策" を求める θ ← θ + α▽θ

最適化法③④ • Off-policy REINFORCE • Off-policy REINFORCE with Learned Reward

最適化法⑤ Q-learning with the Abstract Discourse Markov Decision Process •

最適化法⑤ Abstract Discourse Markov Decision Process 2017/11/25 Nextremer Co., LTD.

最適化法⑤ Abstract Discourse Markov Decision Process 2017/11/25 Nextremer Co., LTD.

最適化法⑤ 学習⽅法はε-greedy法学習する段階で最も報酬の⾼い⽅策を選びつつ、⼀定の確率でランダムな⽅策を試す本論⽂では10% → 10回に⼀回ランダム 2017/11/25 Nextremer Co.,

参考：最適化法ごとの対話モデル選択率 2017/11/25 Nextremer Co., LTD. Confidential Document 23

24 評価

A/Bテスト • ⼀回⽬ • ⼆回⽬ 2017/11/25 Nextremer Co., LTD. Confidential

27 Appendix: 搭載されている対話モデルの紹介

テンプレートベース • Elizabot 2017/11/25 Nextremer Co., LTD. Confidential Document 28

テンプレートベース • AliceBOT 2017/11/25 Nextremer Co., LTD. Confidential Document 29

テンプレートベース • Initiatorbot • 会話のきっかけをつくるbot • ”What did you do

探索ベースニューラルネットワーク • VHRED models • encoder-decoderベースの対話モデル • 意味の解析→単語の⽣成 • 埋め込みベクトルはGloVe

探索ベースニューラルネットワーク • SkipThoughtBooks • SkipThought • 教師なし学習で⽂をベクトル化する san in 引⽤

探索ベースニューラルネットワーク • Bag-of-words Retrieval Models • トランプ⼤統領のツイッターを学習 • BoWEscapePlan •