$30 off During Our Annual Pro Sale. View Details »

音声感情認識技術の最前線

A. Ando
September 26, 2023

 音声感情認識技術の最前線

日本音響学会 第150回(2023年秋季)研究発表会 招待講演

A. Ando

September 26, 2023
Tweet

More Decks by A. Ando

Other Decks in Research

Transcript

  1. 音声感情認識技術の最前線
    〇安藤厚志 (NTT)
    2023. 9. 26
    日本音響学会 2023年秋季研究発表会
    1-9-11

    View Slide

  2. 1
    Copyright 2023 NTT CORPORATION
    Agenda
    • 音声感情認識技術とは
    • 代表的手法
    – ヒューリスティック特徴量に基づく手法
    – 深層学習に基づく手法
    • 近年の研究トピック
    1. 事前学習モデルの導入
    2. データ拡張
    3. 言語情報の活用
    4. 対話文脈の考慮
    5. クロスコーパス感情認識
    6. 話者依存感情認識
    7. 感情の曖昧性のモデル化
    • 今後の課題

    View Slide

  3. 2
    Copyright 2023 NTT CORPORATION
    自己紹介
    安藤 厚志 (あんどう あつし)
    • 略歴
    – 2013.3 名古屋大学大学院 情報科学研究科 博士前期課程 修了
    – 2013.4- 日本電信電話株式会社入社、現職
    – 2021.9 名古屋大学大学院 情報学研究科 博士(情報学)
    • 研究分野: 非言語・パラ言語情報の認識
    – 感情
    • 音声感情認識、マルチモーダル感情分析
    • コンタクトセンタ通話における顧客満足度推定
    – 意図
    • 音声からの質問意図検出
    – 話者性
    • 話者照合、話者ダイアライゼーション

    View Slide

  4. 3
    Copyright 2023 NTT CORPORATION
    • 音声から話者の感情状態を認識する技術
    平常
    喜び
    悲しみ
    怒り
    カテゴリ
    感情認識
    音声感情認識技術とは (1/2)
    快度 : 0.8
    覚醒度: 0.9
    支配度: 0.5
    次元
    感情認識
    音声感情認識

    View Slide

  5. 4
    Copyright 2023 NTT CORPORATION
    • 一般には、複数聴取者が知覚した感情の多数決or平均 のパターン認識
    – 「多くの聞き手が共通して感じるであろう感情」 を推定する技術
    喜び
    喜び
    平常
    経験感情
    Experienced Emotion
    表出感情
    Expressed Emotion
    知覚感情
    Perceived Emotion
    喜び
    喜び
    ※ Brunswick functional lens model [Scherer, 03] に基づく感情伝達過程
    正解感情:
    音声感情認識技術とは (2/2)

    View Slide

  6. 5
    Copyright 2023 NTT CORPORATION
    音声感情認識の応用例
    • マーケティング
    – コンタクトセンタでの顧客満足度の推定 (米, 日, 欧)
    – オンライン教育における生徒の興味・集中レベルの可視化 (中)
    • ビジネス
    – オンライン面接における社会的適性、EQなどの評価 (米)
    – 自動車ドライバーの散漫状態の検出 (米)
    • ヘルスケア
    – メンタルヘルスモニタリング (米, 中, 欧, 日)
    – うつ病・アルツハイマーなどの疾患の早期検出 (米, 中)
    • エンターテイメント
    – ユーザ感情に合わせた演出変更 (日)
    – 共感・同情が可能な音声対話システム
    • 軍事、治安維持
    – 国境警備のための詐称検出 (欧, 米, 中)
    – 司法尋問 (中)

    View Slide

  7. 6
    Copyright 2023 NTT CORPORATION
    音声感情認識の研究用データセット
    • 2023.9時点で40以上の感情認識データセットが存在
    https://superkogito.github.io/SER-datasets/
    年 概要 感情 発話長 言語 モダリティ サンプル
    ESD 2021 読み上げ カテゴリ (ang, hap, neu, sad, sur) 29 時間 英/中 音声
    MSP-
    Podcast
    2020 Podcast
    音声
    カテゴリ (ang, hap, sad, dis, sur,
    fea, con, neu, oth)
    次元 (val, act, dom)
    100+ 時間/
    60000+発話
    英 音声
    MELD 2019 TV番組 カテゴリ (ang, dis, sad, joy, neu,
    sur, fea)
    極性 (pos, neu, neg)
    14000 発話 英 音声、映像、
    テキスト
    CREMA-D 2017 読み上げ カテゴリ (ang, dis, fea, hap, neu,
    sad)
    7400+発話 英 音声、映像
    OGVC 2012 ゲーム音声、
    読み上げ
    カテゴリ (acc, ang, ant, dis, fea,
    joy, neu, sad, sur)
    11000+発話 日 音声、
    テキスト
    UUDB 2008 即興対話 次元 (val, act, dom, cre, int, pos) 4700+発話 日 音声、
    テキスト
    IEMOCAP 2007 俳優の即興
    /演技対話
    カテゴリ (ang, dis, exc, fea, fru,
    hap, neu, sad, sur)
    次元 (val, act, dom)
    10000+発話 英 音声、映像、
    テキスト、
    モーション
    hap
    fea
    ang
    sad
    High
    val
    ang

    View Slide

  8. 7
    Copyright 2023 NTT CORPORATION
    音声感情認識の代表的手法
    • ヒューリスティック特徴量に基づく手法
    – ~2010年代前半の主流
    – 声の高さ、大きさなど、感情と関連の深い音響特徴量を人手で設計
    → それらの特徴量と統計的識別モデルを組合わせて感情推定
    • 深層学習に基づく手法
    – 2010年代後半 ~ 現在の主流
    – 「喜び」「悲しみ」などの多様な感情音声を大量に収集
    → 人手では特徴量を設計せず、深層学習に基づくパターン認識モデルが特徴量を獲得

    View Slide

  9. 8
    Copyright 2023 NTT CORPORATION
    過去主流:ヒューリスティック特徴量に基づく手法
    • 人手設計した, 感情と関連しそうな特徴量(ヒューリスティック特徴量)を利用
    ✓ 仕組みが単純
    × 感情表現は多様であるため、最適なヒューリスティック特徴量の設計が困難
    時間 [s]
    100
    200
    例: ① 声の高さを表す特徴量を抽出
    基本周波数 [Hz]
    統計的識別器

    推定感情

    高次統計量関数の適用
    短時間ごとの
    ヒューリスティック特徴量の抽出

    View Slide

  10. 9
    Copyright 2023 NTT CORPORATION
    過去主流:ヒューリスティック特徴量に基づく手法
    • 人手設計した, 感情と関連しそうな特徴量(ヒューリスティック特徴量)を利用
    ✓ 仕組みが単純
    × 感情表現は多様であるため、最適なヒューリスティック特徴量の設計が困難
    V
    時間 [s]
    100
    200
    例: ② 声の高さの統計量を算出
    基本周波数 [Hz]
    統計的識別器

    推定感情

    短時間ごとの
    ヒューリスティック特徴量の抽出
    高次統計量関数の適用
    平均
    最大 レンジ

    View Slide

  11. 10
    Copyright 2023 NTT CORPORATION
    過去主流:ヒューリスティック特徴量に基づく手法
    • 人手設計した, 感情と関連しそうな特徴量(ヒューリスティック特徴量)を利用
    ✓ 仕組みが単純
    × 感情表現は多様であるため、最適なヒューリスティック特徴量の設計が困難
    V
    時間 [s]
    100
    200
    例: ③ 発話統計量に基づいて感情推定
    基本周波数 [Hz]
    統計的識別器

    推定感情

    高次統計量関数の適用
    平均>150Hz
    → 「喜び」感情
    短時間ごとの
    ヒューリスティック特徴量の抽出

    View Slide

  12. 11
    Copyright 2023 NTT CORPORATION
    • 感情と関連の高い特徴量を感情音声データから自動獲得
    ✓ ヒューリスティック特徴量に基づく手法に比べて高精度
    × 精度向上のためには大量の感情音声データが必要
    V
    感情音声データから学習
    現在主流:深層学習に基づく手法
    エンコーダ
    プーリング層
    デコーダ


    推定感情

    スペクトル特徴量抽出
    深層学習
    感情認識
    モデル
    感情認識モデル

    スペクトル特徴量抽出


    平常発話 喜び発話 怒り発話
    推定: 平常 喜び 怒り

    View Slide

  13. 12
    Copyright 2023 NTT CORPORATION
    2手法の比較
    • やっていることは同じ!
    – 短時間ごとの感情手がかりの抽出 → 発話全体の感情手がかりの抽出 → 感情推定
    統計的識別器

    推定感情

    短時間ごとの
    ヒューリスティック特徴量の抽出
    高次統計量関数の適用
    エンコーダ
    プーリング層
    デコーダ


    推定感情

    スペクトル特徴量抽出
    ヒューリスティック特徴量に基づく手法 深層学習に基づく手法
    ①短時間ごとの
    手がかり抽出
    ②発話全体での
    手がかり抽出
    ③手がかりから
    感情を推定

    View Slide

  14. 13
    Copyright 2023 NTT CORPORATION
    精度向上に向けた課題
    • 感情音声の学習データが大量に必要
    • 感情情報の手がかりはきわめて多様かつ複雑
    – 話し方にも、話した内容にも感情の手がかりが表れる
    – 文脈、話者、言語性、文化などにも感情の手がかりが影響される
    • 感情情報(正解ラベル)の曖昧性が学習されにくい

    View Slide

  15. 14
    Copyright 2023 NTT CORPORATION
    近年の研究トピック
    • 感情音声の学習データが大量に必要
    • 感情情報の手がかりはきわめて多様かつ複雑
    – 話し方にも、話した内容にも感情の手がかりが表れる
    – 文脈、話者、言語性、文化などにも感情の手がかりが影響される
    • 感情情報(正解ラベル)の曖昧性が学習されにくい
    → ① 事前学習モデルの導入
    ② 感情認識向けデータ拡張
    → ③ 言語情報の活用 (マルチモーダルモデリング)
    → ④ 対話文脈の考慮
    ⑤ 話者非依存感情認識
    ⑥ クロスコーパス/クロスリンガル感情認識
    → ⑦ 感情の曖昧性のモデル化

    View Slide

  16. 15
    Copyright 2023 NTT CORPORATION
    近年の研究トピック
    • 感情音声の学習データが大量に必要
    • 感情情報の手がかりはきわめて多様かつ複雑
    – 話し方にも、話した内容にも感情の手がかりが表れる
    – 文脈、話者、言語性、文化などにも感情の手がかりが影響される
    • 感情情報(正解ラベル)の曖昧性が学習されにくい
    → ① 事前学習モデルの導入
    ② 感情認識向けデータ拡張
    → ③ 言語情報の活用 (マルチモーダルモデリング)
    → ④ 対話文脈の考慮
    ⑤ 話者非依存感情認識
    ⑥ クロスコーパス/クロスリンガル感情認識
    → ⑦ 感情の曖昧性のモデル化

    View Slide

  17. 16
    Copyright 2023 NTT CORPORATION
    ①事前学習モデルの導入
    • 別タスクで学習させた深層学習モデル (事前学習モデル) を利用
    – 事前学習モデルは韻律的情報・音韻的情報の抽出が既にできているため、
    少量の感情音声データからでも頑健な感情認識モデルを構築しやすい
    – 事前学習モデルとして、wav2vec2.0などの自己教師あり学習モデルがよく用いられる
    エンコーダ
    別タスク用デコーダ


    推論結果 (例: 音声認識結果)
    エンコーダ
    プーリング層
    デコーダ


    推定感情

    View Slide

  18. 17
    Copyright 2023 NTT CORPORATION
    ①事前学習モデルの導入
    • 感情認識タスクに適した事前学習モデルの導入方法も研究が進む
    – 自己教師あり学習モデルの中盤~後半層出力が感情認識に効果大
    [Shor+, ICASSP22][Ando+, SLT22][Ioannides+, INTERSPEECH23]
    – 事前学習モデル部分も含めてモデル全体を再学習すると効果的、
    その場合は単純なpooling層/デコーダで十分
    [Wang+, arXiv22][Sun+, INTERSPEECH23]
    – 音声認識/性別認識タスクを感情認識の中間タスクとして学習させ
    その後感情音声データでFine-tuningすると精度向上
    [Gao+, INTERSPEECH23]
    モデル層数(Conformer XL /XXL / G),
    学習データ(Youtube, LibriLight)に依らず
    50~80%部分の中間層が感情認識に効果的

    View Slide

  19. 18
    Copyright 2023 NTT CORPORATION
    ①事前学習モデルの導入
    • 自己教師あり学習モデルを用いた感情認識では言語情報も考慮されるとの
    報告も [Wagner+, Trans. PAMI23]
    – Positive/Negative wordを含む合成音声を快-不快推定モデルに入力したところ、
    自己教師あり学習モデル導入時にPositive wordを含む文で快度が高いと推定された
    Positive word
    を含む合成音声
    Negative word
    を含む合成音声
    (快)
    (不快)

    View Slide

  20. 19
    Copyright 2023 NTT CORPORATION
    ②感情認識向けデータ拡張
    • 感情認識に特化させた学習データ拡張手法も提案されている
    – CopyPaste:人間の感情知覚の特性に着目、感情発話を連結 [Pappagari+, ICASSP21]
    • 複数の感情データセットで精度向上を確認 & 全ての感情において再現率向上
    SE-CP: 同一感情発話を連結 N-CP: 平常感情発話 + 非平常感情発話を連結
    怒り発話1 怒り発話2
    (拡張) 怒り発話
    平常発話 怒り発話
    (拡張) 怒り発話

    View Slide

  21. 20
    Copyright 2023 NTT CORPORATION
    ②感情認識向けデータ拡張
    • 感情認識に特化させた学習データ拡張手法も提案されている
    – EMix: 同一感情 / 平常感情+特定感情 の組合せで発話混合 [Dang+, ICASSP23]
    • 既存のAugmentation手法よりも高精度
    EMix-S: 同一感情発話で混合 EMix-N: 平常感情発話 + 非平常感情発話で混合
    怒り発話1
    怒り発話2
    (拡張)怒り発話
    平常発話
    怒り発話
    (拡張)怒り発話
    ラベルは「怒り」

    View Slide

  22. 21
    Copyright 2023 NTT CORPORATION
    近年の研究トピック
    • 感情音声の学習データが大量に必要
    • 感情情報の手がかりはきわめて多様かつ複雑
    – 話し方にも、話した内容にも感情の手がかりが表れる
    – 文脈、話者、言語性、文化などにも感情の手がかりが影響される
    • 感情情報(正解ラベル)の曖昧性が学習されにくい
    → ① 事前学習モデルの導入
    ② 感情認識向けデータ拡張
    → ③ 言語情報の活用 (マルチモーダルモデリング)
    → ④ 対話文脈の考慮
    ⑤ 話者非依存感情認識
    ⑥ クロスコーパス/クロスリンガル感情認識
    → ⑦ 感情の曖昧性のモデル化

    View Slide

  23. 22
    Copyright 2023 NTT CORPORATION
    ③言語情報の活用 (マルチモーダルモデリング)
    • 話し方(韻律的情報)に加え, 話した内容(言語的情報)を利用し感情を推定
    – 音声認識により言語情報を推定 [Shon+, INTERSPEECH21]他
    デコーダ
    音声エンコーダ
    プーリング層


    推定感情
    音声認識
    テキストエンコーダ
    プーリング層


    えー 微妙 … だけど
    マルチモーダル
    感情認識モデル

    View Slide

  24. 23
    Copyright 2023 NTT CORPORATION
    ③言語情報の活用 (マルチモーダルモデリング)
    • マルチモーダルモデルの構造改良が主な研究課題
    – 韻律/言語の部分的な対応関係を考慮することが感情認識には有効とされ (例:“本当『なら』ね”)
    クロスアテンション構造などが採用される
    – クロスアテンションは実際には有効性が低いという報告も [Rajan+, ICASSP22]
    モーダルごとの
    Frame-level embeddings
    Cross-Attention
    (Multi-Head Attn.)
    Avg. Pooling
    全モーダル組合せに
    対する平均/分散を
    デコーダに入力
    Self-Attention
    モーダル内に閉じる
    Avg. Pooling
    全モーダルに
    対する平均/分散を
    デコーダに入力
    クロスアテンションモデル セルフアテンションモデル

    View Slide

  25. 24
    Copyright 2023 NTT CORPORATION
    ④対話文脈の考慮
    • 人間のように、過去の対話情報(対話文脈) を考慮し現在の感情を推定
    まあまあかな
    この発話だけを聞くと
    平常感情であるように感じる

    View Slide

  26. 25
    Copyright 2023 NTT CORPORATION
    ④対話文脈の考慮
    • 人間のように、過去の対話情報(対話文脈) を考慮し現在の感情を推定
    この前の休みはどこに行ったの?
    沖縄に行ったよ
    え~! 羨ましいなあ!
    海がすごく綺麗だったんじゃない?
    まあまあかな
    この発話だけを聞くと
    平常感情であるように感じる
    自身や話し相手の過去発話も聞くと
    喜び感情であるように感じる

    View Slide

  27. 26
    Copyright 2023 NTT CORPORATION
    ④対話文脈の考慮
    • 発話単位エンコーダ+対話単位デコーダで構成されるモデルが一般的
    – 対話単位デコーダにGraph NNを導入するなど、感情遷移構造のモデル化も進む
    – 3名以上の会話に拡張した会話単位デコーダも存在 [Shi+, INTERSPEECH23]
    DialogueRNN [Majumder+, AAAI19] DialogMSG [Song+, ICASSP22]
    発話単位
    エンコーダ
    対話単位
    デコーダ
    対話単位
    デコーダ
    発話単位
    エンコーダ

    View Slide

  28. 27
    Copyright 2023 NTT CORPORATION
    ⑤話者非依存感情認識
    • 話者ごとの感情表現の違いに対応
    – 話者敵対学習による話者正規化 [Gat+, ICASSP22]
    • 話者敵対学習により誤り率を
    相対値で約10%削減
    (5-fold Acc. 71.9%→74.2%)
    話者識別を
    できなくさせる

    View Slide

  29. 28
    Copyright 2023 NTT CORPORATION
    ⑥クロスコーパス/クロスリンガル感情認識
    • データセットや言語によらず、単一モデルで高精度な感情認識を目指す
    – 感情表現は文化や社会に依らず普遍的とする, 基本感情仮説 [Ekman, 92] に基づく
    – 以前は部分空間学習による共通空間への射影などが主流だったが、
    現在はドメイン敵対学習(Domain Adversarial Training) が一般的 [Abdelwahab+,TASLP18]
    感情認識デコーダ
    (感情は正解させる)
    ドメイン/言語識別デコーダ
    (ドメインは正解できなくさせる)

    View Slide

  30. 29
    Copyright 2023 NTT CORPORATION
    近年の研究トピック
    • 感情音声の学習データが大量に必要
    • 感情情報の手がかりはきわめて多様かつ複雑
    – 話し方にも、話した内容にも感情の手がかりが表れる
    – 文脈、話者、言語性、文化などにも感情の手がかりが影響される
    • 感情情報(正解ラベル)の曖昧性が学習されにくい
    → ① 事前学習モデルの導入
    ② 感情認識向けデータ拡張
    → ③ 言語情報の活用 (マルチモーダルモデリング)
    → ④ 対話文脈の考慮
    ⑤ 話者非依存感情認識
    ⑥ クロスコーパス/クロスリンガル感情認識
    → ⑦ 感情の曖昧性のモデル化

    View Slide

  31. 30
    Copyright 2023 NTT CORPORATION
    ⑦感情の曖昧性のモデル化
    • 感情手がかりの学習のため, 感情ラベルの曖昧性をモデルに理解させる
    – 全聴取者が喜びと知覚した発話と、少数の聴取者が喜びと知覚した発話とでは
    『喜び』感情の手がかりは異なる可能性がある
    – 発話ごとの正解感情の曖昧性を学習させる研究がいくつか存在
    • Soft-Label:
    聴取者ごとの感情ラベル分布を学習
    [Ando+, ICASSP18]
    • Secondary-Emotion:
    最多感情に加えて2番目に多い感情を推定
    [Lotfian+, INTERSPEECH18]
    • Ordinal Label:
    感情音声を順序的/相対的なラベルとみなす
    (例: 音声Aより音声Bの方が快度が高い)
    [Yannakakis+, Trans. AC18][Wu+, INTERSPEECH23]

    View Slide

  32. 31
    Copyright 2023 NTT CORPORATION
    ⑦感情の曖昧性のモデル化
    • 聞き手ごとに異なる感情知覚基準を学習させる研究も存在
    – Listener-Adaptive Model: 音声と聴取者情報を入力, 聞き手ごとの知覚感情を推定
    [Ando+, ICASSP21]

    View Slide

  33. 32
    Copyright 2023 NTT CORPORATION
    音声感情認識の課題
    • 感情音声データ・感情ラベルの大規模収集方法の確立
    – 特に感情ラベルは複数名の聴取者が必要なため収集コスト大
    • 大規模コーパス/感情認識ツールキットの整備
    – 公知の音声感情認識コーパスは~100時間規模 (⇔音声認識・話者認識 ~1000時間)
    – ESPNet・Kaldi相当の持続的ツールキットも存在しない
    • 音声感情認識の法規制・倫理的課題の解決
    – 欧米を中心に感情認識技術への規制が強まりつつある

    View Slide

  34. 33
    Copyright 2023 NTT CORPORATION
    音声感情認識の法規制・倫理的課題
    • 規制の例
    – 欧州
    • 感情認識システム一般は「透明性の義務のあるAI システム」、ユーザーは当該システム
    の対象となる個人にシステムの運用について情報提供するよう義務付け (2021. 4)
    • 職場や教育機関での感情認識システムなどの差別的使用を禁止 (2023. 6)
    – 米国
    • 警察官のボディカメラや携帯端末で取得した生体データから個人の感情や精神状態、
    危険性のレベルに関する評価を行うシステムの禁止 (2020.1 カリフォルニア州)
    – 日本
    • (カメラ画像から) 人種、信条、健康、内心など、生活者の最も私的な事項に係る情報を
    抽出して検知したり、推定を行ったりすることについては、慎重な配慮が求められる
    (2022.3)
    • 主な懸念
    – 感情認識は科学的根拠が弱い
    – 内心の自由・表現の自由などの人権侵害にあたる
    – 男女や人種によって認識バイアスが生じ、特定の人物に対して不利益を与えうる

    View Slide

  35. 34
    Copyright 2023 NTT CORPORATION
    まとめ
    • 音声感情認識: 声から話者の感情状態を推定する技術
    • 主なアプローチ
    – ヒューリスティック特徴量に基づく手法
    – 深層学習に基づく手法
    • 近年の研究トピック
    – 少量データからのモデル学習 : 自己教師学習モデル導入、データ拡張
    – 多様な手がかりの利用 : 言語情報の活用、対話文脈の考慮、話者非依存モデル、
    クロスコーパス/クロスリンガル感情認識
    – 正解ラベルの曖昧性の学習 : 曖昧性のモデル化
    • 課題
    – 感情音声データ・感情ラベルの大規模収集方法の確立
    – 大規模コーパス/感情認識ツールキットの整備
    – 音声感情認識の法規制・倫理的課題の解決

    View Slide