Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
対話コンテキストを考慮したニューラル通話シーン分割
Search
Ryo Masumura
February 07, 2019
Research
440
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
対話コンテキストを考慮したニューラル通話シーン分割
Ryo Masumura
February 07, 2019
More Decks by Ryo Masumura
See All by Ryo Masumura
シングルチャネルマルチトーカー音声認識の進展
ryomasumura
0
39
クロスモーダル表現学習の研究動向: 音声関連を中心として
ryomasumura
3
1.3k
MediaGnosis IEEE ICIP2023 Industry Seminar
ryomasumura
0
540
複数人会話データを活用した音声言語処理とアプリケーション(slud研究会招待講演)
ryomasumura
0
1k
2002_Interspeech報告.pdf
ryomasumura
0
550
1907_ICASSP報告.pdf
ryomasumura
0
210
対話コンテキストを扱うターン交替点検出の検討
ryomasumura
0
600
階層再帰型Encoder-Decoderに基づく談話コンテキストEnd-to-End音声認識
ryomasumura
0
790
学会に発表者として継続的に参加するためのセルフマネージメント
ryomasumura
11
8.5k
Other Decks in Research
See All in Research
Unified Audio Source Separation (Defense Slides)
kohei_1979
1
620
羽田新ルート運用6年の検証
1manken
0
160
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
2.2k
事後確率分布の共分散について
koide3
0
140
第66回コンピュータビジョン勉強会@関東 Epona: Autoregressive Diffusion World Model for Autonomous Driving
kentosasaki
0
630
Model Discovery and Graph Simulation: A Lightweight Gateway to Chaos Engineering
anatolykr
0
200
Φ-Sat-2のAutoEncoderによる情報圧縮系論文
satai
4
780
定数整数除算・剰余算最適化再考
herumi
1
130
AIエージェント時代のLLM-jpモデルのあるべき姿
k141303
0
480
進学校の生徒にはア行の苗字が多いのか
ozekinote
0
450
NLP colloquium: AI Safety Survey
kanekomasahiro
0
740
東京大学工学部計数工学科、計数工学特別講義の説明資料
kikuzo
0
500
Featured
See All Featured
Six Lessons from altMBA
skipperchong
29
4.3k
Designing for Performance
lara
611
70k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Building the Perfect Custom Keyboard
takai
2
800
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
180
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
240
HDC tutorial
michielstock
2
720
Art, The Web, and Tiny UX
lynnandtonic
304
22k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.4k
The Curious Case for Waylosing
cassininazir
1
390
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
210
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
480
Transcript
Copyright©2019 NTT corp. All Rights Reserved. 対話コンテキストを考慮した ニューラル通話シーン分割 増村 亮,
田中 智大, 安藤 厚志, 神山 歩相名, 大庭 隆伸, 青野 裕司 日本電信電話株式会社 NTTメディアインテリジェンス研究所
Copyright©2019 NTT corp. All Rights Reserved. 本発表の概要 2 提案手法にはどんなキーアイデアがある?
オペレータとカスタマーのインタラクションの纏まりをうまく捉 えるために、「どの役割の話者がどんな内容を話したか」の長距 離系列を捉えるためのモデル化をニューラルネットワークで実現 評価実験 6業種のコンタクトセンタ模擬通話データを用いて有効性を検証 通話シーン分割とは? 人手で定めたいくつかのシーンに通話全体を自動分割する技術 どんな問題を扱うのか? 複数人会話テキストに対する発話単位の系列ラベリング問題 コンタクトセンタ通話を利用したアプリケーションの 高度化のために、”通話シーン分割”手法を提案
Copyright©2019 NTT corp. All Rights Reserved. 3 本発表の流れ 1. 研究背景と本研究のアプローチ
2. 提案手法の詳細 3. 評価実験 4. まとめ
Copyright©2019 NTT corp. All Rights Reserved. 4 研究背景 データマイニングシステム
オペレータ支援システム オペレータ カスタマー 音声認識 音声言語処理 データマイニングシステム やオペレータ支援システム 大量に蓄積された通話群から、 ビジネスの改善に有用な情報(カスタマーのニーズや不満)を発見 オペレータにリアルタイムで仕事をサポートする情報を提示、 またアフタコールワークである個人情報の登録等を通話中に実施 コンタクトセンタに集まるカスタマーの声の情報を 活用するアプリケーションを高度化する技術が求められる
Copyright©2019 NTT corp. All Rights Reserved. コンタクトセンタ通話向けの技術 テキストの内容に基づく技術
通話要約 [Byrd+ 2008][Higashinaka+ 2010] 通話検索 [Mamou+ 2006] 通話分類 [Haffner+ 2003][Sawada+ 2017] テキスト以外の情報も利用した技術 カスタマーの怒り推定 [Chastagnol+ 2011] カスタマーの満足度推定 [Ando+ 2017] 2者対話であるコンタクトセンタに特化した技術が これまで数多く提案されている 5
Copyright©2019 NTT corp. All Rights Reserved. 本研究の目的 オペレータ カスタマー 通話シーン1
通話シーン2 通話シーン3 データマイニングシステムやオペレータ支援システム の高度化につながることが期待される カスタマーの要件や個人情報の抽出性能の高度化に寄与 これまでのコンタクトセンタ通話向け技術のさらなる高度化に寄与 コンタクトセンタ通話をいくつかの通話シーンに分割 する通話シーン分割技術の確立 6
Copyright©2019 NTT corp. All Rights Reserved. 関連研究 7 教師なし手法:
カテゴリが明確に定まっていない場合に有用 テキストタイリング [Hearst+ 1997][Song+ 2016] 潜在変数モデルの利用 [Yamron+ 1998][Leung+ 2013] パッセージ(複数文)間の関連性を算出しクラスタリング 潜在変数を発話単位の話題ラベルに対応させてモデル化 教師あり手法: 識別したいカテゴリが定まっている場合に有用 識別モデルを用いた発話単位の系列ラベリング [Yu+2016][Tsunoo+2017] DNN-HMMやRNNを用いたアプローチで系列ラベリング 通話シーン分割は文書や談話等の話題分割と類似した タスクであり、教師なし手法と教師あり手法が存在
Copyright©2019 NTT corp. All Rights Reserved. 8 本研究における通話シーン分割の問題設定 次の5種類の通話シーンごとの発話区間にラベリングする問題と定義
オープニング: コンタクトセンタ通話の開始点から, 挨拶等のオープニングの終了点までの発話区間 用件把握: オペレータがカスタマーの用件を聞き始めてから, 用件を把握し終えるまでの発話区間. 要件対応: 把握した用件について,オペレータが対応している 発話区間. カスタマー情報把握: オペレータがカスタマーの名前,住所, 電話番号等の個人情報を確認している発話区間 クロージング: クロージングの開始点から,コンタクトセンタ 通話の終了点までの発話区間. 教師ありのアプローチに基づく複数人会話のテキスト に対する発話単位の系列ラベリングとして問題を設定
Copyright©2019 NTT corp. All Rights Reserved. コンタクトセンタ通話の通話シーンの例 9 オープニング 用件把握
要件対応 カスタマー情報把握 クロージング 通話ごとに異なり決定が難しい区間は「要件把握」の通話シーン 通話開始点 通話終了点 3種類の異なる通話の通話シーン遷移の例 通話ごとに、通話シーンの遷移は異なる
Copyright©2019 NTT corp. All Rights Reserved. 10 従来手法と課題 単語単位と発話単位の2種類のリカレントニューラルネットワークと
を組み合わせ長距離コンテキストを考慮してラベリング 課題: 単一話者による談話を対象としていたため、 話者間のインタラクションを捉えることはできない 要件把握パートなら・・・ カスタマーが質問してオペレータがそれに答える カスタマー情報把握パートなら・・・ カスタマーが個人情報を話してオペレータが復唱する 階層リカレントニューラルネットワークに基づく 教師あり話題分割手法 [Tsunoo+ 2017]
Copyright©2019 NTT corp. All Rights Reserved. 11 本研究のアプローチ オペレータ支援システム向けのアプローチ:
発話が入力されるたびに通話シーンを逐次推定可能な オンライン処理向けの手法 データマイニングシステム向けのアプローチ: 通話全体が終わってから全体の通話シーンラベルを 想定するバッチ処理向けの手法 アイデア: 「どの役割の話者がどんな内容を話したか」を陽に捉える ために、話者役割ラベルも同時に考慮すればよいのでは? コンタクトセンタにおけるオペレータとカスタマーの発話が, それぞれ異なるチャンネルから収録されるという性質が活かせる 実用を見据えた2種類のアプローチ 対話コンテキストを考慮可能なニューラルネットワーク に基づく通話シーン分割手法を提案
Copyright©2019 NTT corp. All Rights Reserved. 12 本発表の流れ 1. 研究背景と本研究のアプローチ
2. 提案手法の詳細 3. 評価実験 4. まとめ
Copyright©2019 NTT corp. All Rights Reserved. 提案手法のモデル化の定義 13 発話文系列:
(1:) = { 1 , … , } 発話文は単語系列: = { 1 (), … , () () } 発話単位の通話シーンラベル系列: (1:) = { 1 , … , } 通話シーンラベル: = {opening, requirement confirimation, response, customer confirmation, closing} 発話単位の話者役割ラベル系列: (1:) = { 1 , … , } 話者役割ラベル: = {oeperator, customer} モデルの出力 ニューラル通話シーン分割のモデル化 オンライン処理向けのモデル化: ( | 1: , 1: , ) バッチ処理向けのモデル化: ((1:)| 1: , 1: , ) モデルの入力
Copyright©2019 NTT corp. All Rights Reserved. 14 ニューラル通話シーン分割のモデル構造 「どの役割の話者がどんな内容を話したか」
の長距離コンテキストを捉えるためのモデル構造を導入 1 (−1) 2 (−1) (−1)−1 (−1) (−1) (−1) … … … … (−1) 1 () 2 () ()−1 () () () … … … … () (−1) 1 (−1) 2 (−1) (−1)−1 (−1) (−1) (−1) (−1) () 1 () 2 () ()−1 () () () () (−1) () (−1) () (−1) () 系列ラベリングの ためのネットワーク 発話ベクトル生成のためのネットワーク 系列ラベリングのためのネットワーク オンライン処理向けとバッチ処理向けで異なる構造 オンライン処理向けとバッチ処理向けで同一の構造 発話ベクトル生成の ためのネットワーク
Copyright©2019 NTT corp. All Rights Reserved. 15 発話ベクトル生成のためのネットワーク 通話シーン分割に有用な情報を埋め込んだ
発話ベクトルを構成するためのネットワーク 単語埋め込み層: 単語を単語ベクトルに変換 1 () 2 () ()−1 () () () … … () 1 () 2 () ()−1 () () () 1 () 2 () ()−1 () () () 単語単位BLSTM層: 前後コンテキストを考慮した 埋め込みベクトルに変換 発話文埋め込み層: 注意機構を用いて、 発話全体の情報を埋め込んだ 発話文ベクトルに変換 () () 話者役割ラベル埋め込み層: 話者役割ラベルを 話者役割ベクトルに変換 発話文ベクトルと話者役割ベクトルの結合ベクトルを出力
Copyright©2019 NTT corp. All Rights Reserved. 16 系列ラベリングのためのネットワーク 発話間の関係を長距離にわたって考慮可能な構造を導入
() () () () (1) (1) (1) (1) … 発話単位LSTM層: 過去の全ての発話系列も考慮した 埋め込みベクトルを構成する ソフトマックス層: 予測確率分布 を構成する () () () () (1) (1) (1) (1) … 発話単位BLSTM層: 通話全体の発話系列を考慮した 埋め込みベクトルを構成する CRF層: 通話全体の整合性 まで考慮して 予測確率分布を構成 オンライン処理向け: 発話を得るたびに逐次現在の通話シーン を決定可能なネットワーク構造 バッチ処理向け: 通話全体の情報を得てから全体の通話シーン を決定可能なネットワーク構造 オンライン処理向け バッチ処理向け
Copyright©2019 NTT corp. All Rights Reserved. 学習方法 17 各層のモデルパラメータは、
通話単位のデータを用いて最尤基準で最適化可能 = arg min − ∈ log ( | , , ) ミニバッチ勾配法が利用可能 : 学習データ全体 : オペレータとカスタマーのある通話 本研究では、単語ベクトルのみは、 大量のテキストデータから事前学習して利用
Copyright©2019 NTT corp. All Rights Reserved. 18 本発表の流れ 1. 研究背景と本研究のアプローチ
2. 提案手法の詳細 3. 評価実験 4. まとめ
Copyright©2019 NTT corp. All Rights Reserved. 評価実験 19 6業種のコンタクトセンタの模擬通話データを用い、
提案手法の有効性を検証 業種 通話数 単語数 金融会社 59 55,933 インターネットプロバイダ会社 57 47,668 地方自治体 73 48,998 通信販売会社 56 46,574 パソコン修理会社 55 55,101 携帯電話会社 61 51,061 各通話は平均100発話程度含まれており、 各発話はオペレータかカスタマーのどちらが発話したかが既知 各発話は平均で10単語程度含まれる 本評価実験では、音声認識結果ではなく書き起こしを使用 通話シーンのアノテーションは、単一のアノテータにより実施
Copyright©2019 NTT corp. All Rights Reserved. 各業種の通話シーンの割合 20 0% 20%
40% 60% 80% 100% 金融会社 インターネット プロバイダ会社 地方自治体 通信販売会社 パソコン修理会社 携帯電話会社 オープニング 要件把握 要件対応 カスタマー 情報把握 クロージング 業種によって、各通話シーンの割合が少し異なる 本タスクにおいて、もっとも難しいものは「要件把握」
Copyright©2019 NTT corp. All Rights Reserved. 評価方法 21 6業種中5業種で学習し、1業種で評価することにより、
業種についてオープンな評価を実施 話者役割ラベルの考慮 ベースライン (オンライン処理) - 提案手法 (オンライン処理) ✓ ベースライン (バッチ処理) - 提案手法 (バッチ処理) ✓ ベースライン: 話者役割ラベルを用いないモデル化 (オンライン処理の場合は[Tsunoo+ 2017]とほぼ同等) 比較手法 提案手法: 話者役割ラベルを用いるモデル化 発話単位の識別結果に対するF値 評価指標
Copyright©2019 NTT corp. All Rights Reserved. 22 実験条件 単語連続ベクトルの次元数:
128 単語単位のBLSTMのユニット数: 400 最適化方法: Adam ベースラインと提案手法で統一的なパラメータを利用 話者役割ベクトルの次元数: 32 約20 億単語を含む話し言葉Webテキストから Continuous Bag-of-Words モデルを事前学習して利用 ミニバッチの構成単位: 5通話 学習データの一部をアーリーストッピングのため利用 Utterance-level LSTM unit size: 400 初期値を変化させて1 条件につき5 回ネットワークを構築し、 開発データについて最もロスが減少したモデルを用いて評価
Copyright©2019 NTT corp. All Rights Reserved. 実験結果 23 50 55
60 65 70 75 80 85 90 95 オープニング 要件把握 要件対応 カスタマー 情報把握 クロージング ベースライン (オンライン処理) 提案手法 (オンライン処理) ベースライン (バッチ処理) 提案手法 (バッチ処理) F値 ベースライン手法だと「要件把握」を「要件対応」に間違えることが 多かったが、提案手法ではインタラクションの塊を捉えることで、 その問題を大きく軽減 提案手法により、各通話シーンの分割性能が向上し、 特に「要件把握」で大きく性能改善
Copyright©2019 NTT corp. All Rights Reserved. 考察 24 単語連続ベクトルの事前学習は有効であったか?
有効であり、事前学習によって大きく性能がかわっていた 手法 事前学習なし 事前学習あり ベースライン (オンライン処理) 76.6 84.5 提案手法(オンライン処理) 79.3 85.5 なぜオンライン手法の性能の方が優れていたのか? 通話シーン分割は出力が頻繁に変わる問題ではないため、 CRF層がなくても安定的に動作しており、 バッチ手法におけるCRF層の学習の難しさが上回ってしまったため 話者役割ベクトルは1-hotベクトルではダメなのか? 連続ベクトルに変換することで、若干の改善効果があった 手法 1-hotベクトル 連続値ベクトル 提案手法(オンライン処理) 85.1 85.5
Copyright©2019 NTT corp. All Rights Reserved. 25 本発表の流れ 1. 研究背景と本研究のアプローチ
2. 提案手法の詳細 3. 評価実験 4. まとめ
Copyright©2019 NTT corp. All Rights Reserved. まとめ 26 コンタクトセンタ通話のために、
教師あり学習に基づく通話シーン分割手法を提案 評価結果 提案手法を用いることにより、単一話者向けの手法よりも性能が 改善し、特に難易度が高い「要件把握」の性能を大きく改善 提案手法の強み 「どの役割の話者がどんな内容を話したか」の長距離系列を 捉えることが可能な発話単位系列ラベリングを実現 今後の予定 他のコンタクトセンタ系技術において、 通話シーン分割を組み合わせることによる有効性を検証