対話コンテキストを考慮したニューラル通話シーン分割

Copyright©2019 NTT corp. All Rights Reserved. 対話コンテキストを考慮したニューラル通話シーン分割増村亮,
田中智大, 安藤厚志, 神山歩相名, 大庭隆伸, 青野裕司日本電信電話株式会社 NTTメディアインテリジェンス研究所

Copyright©2019 NTT corp. All Rights Reserved. 本発表の概要 2  提案手法にはどんなキーアイデアがある？
 オペレータとカスタマーのインタラクションの纏まりをうまく捉えるために、「どの役割の話者がどんな内容を話したか」の長距離系列を捉えるためのモデル化をニューラルネットワークで実現  評価実験  6業種のコンタクトセンタ模擬通話データを用いて有効性を検証  通話シーン分割とは？  人手で定めたいくつかのシーンに通話全体を自動分割する技術  どんな問題を扱うのか？  複数人会話テキストに対する発話単位の系列ラベリング問題  コンタクトセンタ通話を利用したアプリケーションの高度化のために、”通話シーン分割”手法を提案

Copyright©2019 NTT corp. All Rights Reserved. 3 本発表の流れ 1. 研究背景と本研究のアプローチ
2. 提案手法の詳細 3. 評価実験 4. まとめ

Copyright©2019 NTT corp. All Rights Reserved. 4 研究背景  データマイニングシステム
 オペレータ支援システムオペレータカスタマー音声認識音声言語処理データマイニングシステムやオペレータ支援システム  大量に蓄積された通話群から、ビジネスの改善に有用な情報(カスタマーのニーズや不満)を発見  オペレータにリアルタイムで仕事をサポートする情報を提示、またアフタコールワークである個人情報の登録等を通話中に実施  コンタクトセンタに集まるカスタマーの声の情報を活用するアプリケーションを高度化する技術が求められる

Copyright©2019 NTT corp. All Rights Reserved. コンタクトセンタ通話向けの技術  テキストの内容に基づく技術 
通話要約 [Byrd+ 2008][Higashinaka+ 2010]  通話検索 [Mamou+ 2006]  通話分類 [Haffner+ 2003][Sawada+ 2017]  テキスト以外の情報も利用した技術  カスタマーの怒り推定 [Chastagnol+ 2011]  カスタマーの満足度推定 [Ando+ 2017]  2者対話であるコンタクトセンタに特化した技術がこれまで数多く提案されている 5

Copyright©2019 NTT corp. All Rights Reserved. 本研究の目的オペレータカスタマー通話シーン1
通話シーン2 通話シーン3  データマイニングシステムやオペレータ支援システムの高度化につながることが期待される  カスタマーの要件や個人情報の抽出性能の高度化に寄与  これまでのコンタクトセンタ通話向け技術のさらなる高度化に寄与  コンタクトセンタ通話をいくつかの通話シーンに分割する通話シーン分割技術の確立 6

Copyright©2019 NTT corp. All Rights Reserved. 関連研究 7  教師なし手法:
カテゴリが明確に定まっていない場合に有用  テキストタイリング [Hearst+ 1997][Song+ 2016]  潜在変数モデルの利用 [Yamron+ 1998][Leung+ 2013]  パッセージ(複数文)間の関連性を算出しクラスタリング  潜在変数を発話単位の話題ラベルに対応させてモデル化  教師あり手法: 識別したいカテゴリが定まっている場合に有用  識別モデルを用いた発話単位の系列ラベリング [Yu+2016][Tsunoo+2017]  DNN-HMMやRNNを用いたアプローチで系列ラベリング  通話シーン分割は文書や談話等の話題分割と類似したタスクであり、教師なし手法と教師あり手法が存在

Copyright©2019 NTT corp. All Rights Reserved. 8 本研究における通話シーン分割の問題設定  次の5種類の通話シーンごとの発話区間にラベリングする問題と定義
 オープニング: コンタクトセンタ通話の開始点から，挨拶等のオープニングの終了点までの発話区間  用件把握: オペレータがカスタマーの用件を聞き始めてから，用件を把握し終えるまでの発話区間．  要件対応: 把握した用件について，オペレータが対応している発話区間．  カスタマー情報把握: オペレータがカスタマーの名前，住所，電話番号等の個人情報を確認している発話区間  クロージング: クロージングの開始点から，コンタクトセンタ通話の終了点までの発話区間．  教師ありのアプローチに基づく複数人会話のテキストに対する発話単位の系列ラベリングとして問題を設定

Copyright©2019 NTT corp. All Rights Reserved. コンタクトセンタ通話の通話シーンの例 9 オープニング用件把握
要件対応カスタマー情報把握クロージング  通話ごとに異なり決定が難しい区間は「要件把握」の通話シーン通話開始点通話終了点 3種類の異なる通話の通話シーン遷移の例  通話ごとに、通話シーンの遷移は異なる

Copyright©2019 NTT corp. All Rights Reserved. 10 従来手法と課題  単語単位と発話単位の2種類のリカレントニューラルネットワークと
を組み合わせ長距離コンテキストを考慮してラベリング  課題: 単一話者による談話を対象としていたため、話者間のインタラクションを捉えることはできない  要件把握パートなら・・・カスタマーが質問してオペレータがそれに答える  カスタマー情報把握パートなら・・・カスタマーが個人情報を話してオペレータが復唱する  階層リカレントニューラルネットワークに基づく教師あり話題分割手法 [Tsunoo+ 2017]

Copyright©2019 NTT corp. All Rights Reserved. 11 本研究のアプローチ  オペレータ支援システム向けのアプローチ:
発話が入力されるたびに通話シーンを逐次推定可能なオンライン処理向けの手法  データマイニングシステム向けのアプローチ: 通話全体が終わってから全体の通話シーンラベルを想定するバッチ処理向けの手法  アイデア: 「どの役割の話者がどんな内容を話したか」を陽に捉えるために、話者役割ラベルも同時に考慮すればよいのでは？  コンタクトセンタにおけるオペレータとカスタマーの発話が，それぞれ異なるチャンネルから収録されるという性質が活かせる  実用を見据えた2種類のアプローチ  対話コンテキストを考慮可能なニューラルネットワークに基づく通話シーン分割手法を提案

Copyright©2019 NTT corp. All Rights Reserved. 提案手法のモデル化の定義 13  発話文系列:
(1:) = { 1 , … , }  発話文は単語系列: = { 1 (), … , () () }  発話単位の通話シーンラベル系列: (1:) = { 1 , … , }  通話シーンラベル: = {opening, requirement confirimation, response, customer confirmation, closing}  発話単位の話者役割ラベル系列: (1:) = { 1 , … , }  話者役割ラベル: = {oeperator, customer}  モデルの出力  ニューラル通話シーン分割のモデル化  オンライン処理向けのモデル化: ( | 1: , 1: , )  バッチ処理向けのモデル化: ((1:)| 1: , 1: , )  モデルの入力

Copyright©2019 NTT corp. All Rights Reserved. 14 ニューラル通話シーン分割のモデル構造  「どの役割の話者がどんな内容を話したか」
の長距離コンテキストを捉えるためのモデル構造を導入 1 (−1) 2 (−1) (−1)−1 (−1) (−1) (−1) … … … … (−1) 1 () 2 () ()−1 () () () … … … … () (−1) 1 (−1) 2 (−1) (−1)−1 (−1) (−1) (−1) (−1) () 1 () 2 () ()−1 () () () () (−1) () (−1) () (−1) () 系列ラベリングのためのネットワーク  発話ベクトル生成のためのネットワーク  系列ラベリングのためのネットワーク  オンライン処理向けとバッチ処理向けで異なる構造  オンライン処理向けとバッチ処理向けで同一の構造発話ベクトル生成のためのネットワーク

Copyright©2019 NTT corp. All Rights Reserved. 15 発話ベクトル生成のためのネットワーク  通話シーン分割に有用な情報を埋め込んだ
発話ベクトルを構成するためのネットワーク単語埋め込み層: 単語を単語ベクトルに変換 1 () 2 () ()−1 () () () … … () 1 () 2 () ()−1 () () () 1 () 2 () ()−1 () () () 単語単位BLSTM層: 前後コンテキストを考慮した埋め込みベクトルに変換発話文埋め込み層: 注意機構を用いて、発話全体の情報を埋め込んだ発話文ベクトルに変換 () () 話者役割ラベル埋め込み層: 話者役割ラベルを話者役割ベクトルに変換  発話文ベクトルと話者役割ベクトルの結合ベクトルを出力

Copyright©2019 NTT corp. All Rights Reserved. 16 系列ラベリングのためのネットワーク  発話間の関係を長距離にわたって考慮可能な構造を導入
() () () () (1) (1) (1) (1) … 発話単位LSTM層: 過去の全ての発話系列も考慮した埋め込みベクトルを構成するソフトマックス層: 予測確率分布を構成する () () () () (1) (1) (1) (1) … 発話単位BLSTM層: 通話全体の発話系列を考慮した埋め込みベクトルを構成する CRF層: 通話全体の整合性まで考慮して予測確率分布を構成  オンライン処理向け: 発話を得るたびに逐次現在の通話シーンを決定可能なネットワーク構造  バッチ処理向け: 通話全体の情報を得てから全体の通話シーンを決定可能なネットワーク構造オンライン処理向けバッチ処理向け

Copyright©2019 NTT corp. All Rights Reserved. 学習方法 17  各層のモデルパラメータは、
通話単位のデータを用いて最尤基準で最適化可能 = arg min − ∈ log ( | , , )  ミニバッチ勾配法が利用可能 : 学習データ全体 : オペレータとカスタマーのある通話  本研究では、単語ベクトルのみは、大量のテキストデータから事前学習して利用

Copyright©2019 NTT corp. All Rights Reserved. 評価実験 19  6業種のコンタクトセンタの模擬通話データを用い、
提案手法の有効性を検証業種通話数単語数金融会社 59 55,933 インターネットプロバイダ会社 57 47,668 地方自治体 73 48,998 通信販売会社 56 46,574 パソコン修理会社 55 55,101 携帯電話会社 61 51,061  各通話は平均100発話程度含まれており、各発話はオペレータかカスタマーのどちらが発話したかが既知  各発話は平均で10単語程度含まれる  本評価実験では、音声認識結果ではなく書き起こしを使用  通話シーンのアノテーションは、単一のアノテータにより実施

Copyright©2019 NTT corp. All Rights Reserved. 各業種の通話シーンの割合 20 0% 20%
40% 60% 80% 100% 金融会社インターネットプロバイダ会社地方自治体通信販売会社パソコン修理会社携帯電話会社オープニング要件把握要件対応カスタマー情報把握クロージング  業種によって、各通話シーンの割合が少し異なる  本タスクにおいて、もっとも難しいものは「要件把握」

Copyright©2019 NTT corp. All Rights Reserved. 評価方法 21  6業種中5業種で学習し、1業種で評価することにより、
業種についてオープンな評価を実施話者役割ラベルの考慮ベースライン (オンライン処理) - 提案手法 (オンライン処理) ✓ ベースライン (バッチ処理) - 提案手法 (バッチ処理) ✓  ベースライン: 話者役割ラベルを用いないモデル化（オンライン処理の場合は[Tsunoo+ 2017]とほぼ同等）  比較手法  提案手法: 話者役割ラベルを用いるモデル化  発話単位の識別結果に対するF値  評価指標

Copyright©2019 NTT corp. All Rights Reserved. 22 実験条件  単語連続ベクトルの次元数:
128  単語単位のBLSTMのユニット数: 400  最適化方法: Adam  ベースラインと提案手法で統一的なパラメータを利用  話者役割ベクトルの次元数: 32  約20 億単語を含む話し言葉Webテキストから Continuous Bag-of-Words モデルを事前学習して利用  ミニバッチの構成単位: 5通話  学習データの一部をアーリーストッピングのため利用  Utterance-level LSTM unit size: 400  初期値を変化させて1 条件につき5 回ネットワークを構築し、開発データについて最もロスが減少したモデルを用いて評価

Copyright©2019 NTT corp. All Rights Reserved. 実験結果 23 50 55
60 65 70 75 80 85 90 95 オープニング要件把握要件対応カスタマー情報把握クロージングベースライン (オンライン処理) 提案手法 (オンライン処理) ベースライン (バッチ処理) 提案手法 (バッチ処理) F値  ベースライン手法だと「要件把握」を「要件対応」に間違えることが多かったが、提案手法ではインタラクションの塊を捉えることで、その問題を大きく軽減  提案手法により、各通話シーンの分割性能が向上し、特に「要件把握」で大きく性能改善

Copyright©2019 NTT corp. All Rights Reserved. 考察 24  単語連続ベクトルの事前学習は有効であったか？
 有効であり、事前学習によって大きく性能がかわっていた手法事前学習なし事前学習ありベースライン (オンライン処理) 76.6 84.5 提案手法(オンライン処理) 79.3 85.5  なぜオンライン手法の性能の方が優れていたのか？  通話シーン分割は出力が頻繁に変わる問題ではないため、 CRF層がなくても安定的に動作しており、バッチ手法におけるCRF層の学習の難しさが上回ってしまったため  話者役割ベクトルは1-hotベクトルではダメなのか？  連続ベクトルに変換することで、若干の改善効果があった手法 1-hotベクトル連続値ベクトル提案手法(オンライン処理) 85.1 85.5

Copyright©2019 NTT corp. All Rights Reserved. まとめ 26  コンタクトセンタ通話のために、
教師あり学習に基づく通話シーン分割手法を提案  評価結果  提案手法を用いることにより、単一話者向けの手法よりも性能が改善し、特に難易度が高い「要件把握」の性能を大きく改善  提案手法の強み  「どの役割の話者がどんな内容を話したか」の長距離系列を捉えることが可能な発話単位系列ラベリングを実現  今後の予定  他のコンタクトセンタ系技術において、通話シーン分割を組み合わせることによる有効性を検証

対話コンテキストを考慮したニューラル通話シーン分割

対話コンテキストを考慮したニューラル通話シーン分割

Ryo Masumura

More Decks by Ryo Masumura

Other Decks in Research

Featured

Transcript

Copyright©2019 NTT corp. All Rights Reserved. 対話コンテキストを考慮したニューラル通話シーン分割増村亮,

Copyright©2019 NTT corp. All Rights Reserved. 本発表の概要 2  提案手法にはどんなキーアイデアがある？

Copyright©2019 NTT corp. All Rights Reserved. 3 本発表の流れ 1. 研究背景と本研究のアプローチ

Copyright©2019 NTT corp. All Rights Reserved. 4 研究背景  データマイニングシステム

Copyright©2019 NTT corp. All Rights Reserved. コンタクトセンタ通話向けの技術  テキストの内容に基づく技術 

Copyright©2019 NTT corp. All Rights Reserved. 本研究の目的オペレータカスタマー通話シーン1

Copyright©2019 NTT corp. All Rights Reserved. 関連研究 7  教師なし手法:

Copyright©2019 NTT corp. All Rights Reserved. 8 本研究における通話シーン分割の問題設定  次の5種類の通話シーンごとの発話区間にラベリングする問題と定義

Copyright©2019 NTT corp. All Rights Reserved. コンタクトセンタ通話の通話シーンの例 9 オープニング用件把握

Copyright©2019 NTT corp. All Rights Reserved. 10 従来手法と課題  単語単位と発話単位の2種類のリカレントニューラルネットワークと

Copyright©2019 NTT corp. All Rights Reserved. 11 本研究のアプローチ  オペレータ支援システム向けのアプローチ:

Copyright©2019 NTT corp. All Rights Reserved. 12 本発表の流れ 1. 研究背景と本研究のアプローチ

Copyright©2019 NTT corp. All Rights Reserved. 提案手法のモデル化の定義 13  発話文系列:

Copyright©2019 NTT corp. All Rights Reserved. 14 ニューラル通話シーン分割のモデル構造  「どの役割の話者がどんな内容を話したか」

Copyright©2019 NTT corp. All Rights Reserved. 15 発話ベクトル生成のためのネットワーク  通話シーン分割に有用な情報を埋め込んだ

Copyright©2019 NTT corp. All Rights Reserved. 16 系列ラベリングのためのネットワーク  発話間の関係を長距離にわたって考慮可能な構造を導入

Copyright©2019 NTT corp. All Rights Reserved. 学習方法 17  各層のモデルパラメータは、

Copyright©2019 NTT corp. All Rights Reserved. 18 本発表の流れ 1. 研究背景と本研究のアプローチ

Copyright©2019 NTT corp. All Rights Reserved. 評価実験 19  6業種のコンタクトセンタの模擬通話データを用い、

Copyright©2019 NTT corp. All Rights Reserved. 各業種の通話シーンの割合 20 0% 20%

Copyright©2019 NTT corp. All Rights Reserved. 評価方法 21  6業種中5業種で学習し、1業種で評価することにより、

Copyright©2019 NTT corp. All Rights Reserved. 22 実験条件  単語連続ベクトルの次元数:

Copyright©2019 NTT corp. All Rights Reserved. 実験結果 23 50 55

Copyright©2019 NTT corp. All Rights Reserved. 考察 24  単語連続ベクトルの事前学習は有効であったか？

Copyright©2019 NTT corp. All Rights Reserved. 25 本発表の流れ 1. 研究背景と本研究のアプローチ

Copyright©2019 NTT corp. All Rights Reserved. まとめ 26  コンタクトセンタ通話のために、