Upgrade to Pro — share decks privately, control downloads, hide ads and more …

音声感情認識技術の進展と展望

 音声感情認識技術の進展と展望

第157回音声言語情報処理研究発表会 招待講演

日程: 2025年10月1日(水)
場所:オンライン
主催:電子情報通信学会および日本音響学会 音声研究会(SP)
   情報処理学会 音声言語情報処理研究会(SLP)

Avatar for Ryotaro Nagase

Ryotaro Nagase

October 08, 2025
Tweet

Other Decks in Research

Transcript

  1. 立命館大学 情報理工学部 特任助教 音声言語研究室(高島研究室) 永瀬 亮太郎 Nagase, Ryotaro, Ph.D 【略歴】

    2020.03 立命館大学 情報理工学部 メディア情報学科 卒業 2022.03 立命館大学大学院 情報理工学研究科 博士前期課程 修了(修士) 2025.03 立命館大学大学院 情報理工学研究科 博士後期課程 修了(博士) 現在 立命館大学 情報理工学部 メディア情報コース 特任助教 【専門】音声感情認識,音声情報処理 自己紹介 2025/10/01 © 2025 Ryotaro Nagase / 55 2
  2. • 音声感情認識の基礎 ‒ 音声感情認識とは ‒ タスク設定 ‒ モデル構築手順 • 音声感情認識の研究の歩み

    ‒ 音声感情認識の歴史 ‒ 残された課題と解決に向けた取り組み • まとめ 目次 2025/10/01 © 2025 Ryotaro Nagase / 55 3
  3. 音声感情認識の応用例 2025/10/01 • 音声感情認識はコールセンタ音声の分析などで実用化 ‒ 近年では,カスタマーハラスメント対策への応用も期待されている 健全な労働環境の構築・ストレス軽減に繋がる (SGDsの目標8「働きがいも経済成長も」や目標16「平和と公正をすべての人に」の達成) 引用: 音声解析AI電話「MiiTel」、音声感情認識機能をリリース

    会話のポジティブ、ネガティブな感情をAIが可視“https://prtimes.jp/main/html/rd/p/000000087.000037840.html,” PR Times. (最終閲覧日:2023-02-06) 事例1:音声解析 AI 電話 “MiiTel” (株式会社RevComm) 引用: 社会問題化するカスハラへの対策。東京大学と取り組む威圧的な電話音声をAIで抑制する技術開発“https://www.softbank.jp/sbnews/entry/20240726_01,” ソフトバンクニュース. (最終閲覧日:2025-04-15) 事例2:威圧的な電話音声を抑制する技術 (株式会社SoftBank) © 2025 Ryotaro Nagase / 55 6
  4. タスク設定 • カテゴリ感情認識 ‒ 「喜び」や「怒り」などの離散的なクラスを推定 e.g. Plutchik の感情の輪における基本8感情 [R.Plutchik 2001]

    (「喜び」「信頼」「恐れ」「驚き」「悲しみ」「嫌悪」「怒り」「期待」) etc. • 次元感情認識 ‒ 「快-不快」や「覚醒-睡眠」などの連続的な数値を推定 e.g. Russelの円環モデル(覚醒価-感情価)[J.A.Russell 1980] 2025/10/01 引用: G. Shen et.al.,“MEmoR: A Dataset for Multimodal Emotion Reasoning in Videos,”in Proc. MM‘20, pp.493–502, 2020. Plutchik の感情の輪 Russel の円環モデル 覚醒 不快 怒 喜 悲 寛 快 睡眠 © 2025 Ryotaro Nagase / 55 7
  5. 音声感情認識モデルの構築手順 • 音声の準備からモデル評価の手順は次の通り 2025/10/01 音声の 準備  データセット用意  収録

     ラベリング 特徴量 抽出  スペクトログラム  特徴量セット  深層埋め込み モデル 学習  SVM/SVR  CNN  RNN  Transformer モデル 評価  Accuracy  F1 score  RMSE  CCC © 2025 Ryotaro Nagase / 55 8
  6. 感情音声データセット • 様々な感情音声データセットが存在 ‒ 英語/中国語/ロシア語については100時間を超えるデータセット有 2025/10/01 データセット 年 言語 サイズ

    感情 タイプ MSP-PodCast 2.0 2025 英 約407時間 カテゴリ/次元 Spontaneous JVNV 2023 日 1,615発話 カテゴリ Acted BIIC-PodCast 2023 中 約147時間 カテゴリ/次元 Spontaneous CMU-MOSEI 2018 英 約66時間 カテゴリ/次元 Spontaneous JTES 2016 日 20,000発話 カテゴリ Acted OGVC 2012 日 11,770発話 カテゴリ Spontaneous/Acted UUDB 2008 日 4,840発話 次元 Spontaneous IEMOCAP 2007 英 約12時間 カテゴリ/次元 Acted © 2025 Ryotaro Nagase / 55 10
  7. 感情音声データセット(日本語) • JTES (Japanese Twitter based emotional speech) [E.Takeishi+ 2016]

    [言語] 日本語 [話者数] 10代~20代の100名(男性50名,女性50名) [総データ量] 約23.5時間 [内容] • Twitter(現:X)のテキストの読み上げ音声 4感情(喜び,悲しみ,怒り,平静)のテキストを作成 各感情に合わせてテキストを発話 [感情ラベル] • カテゴリ感情:喜び,悲しみ,怒り,平静 2025/10/01 © 2025 Ryotaro Nagase / 55 11
  8. 感情音声データセット • IEMOCAP (Interactive emotional dyadic motion capture) [C.Busso+ 2016]

    [言語] 英語 [話者数] 俳優10名(男性5名,女性5名) [総データ量] 約12時間 [内容] • 台本に基づいた対話(acted) 感情を喚起する台本を俳優が演技 • 仮想シナリオに基づいた対話(improvised)  よくある状況を設定し即興的に演技 e.g.空港でのトラブル,友人の結婚報告 [感情ラベル] • カテゴリ感情:平静,喜び,悲しみ,怒り,驚き,恐れ,嫌悪,失望,興奮,その他 • 次元感情:Valence(快-不快),Activation(覚醒-睡眠),Dominance(支配-服従) 2025/10/01 © 2025 Ryotaro Nagase / 55 12
  9. 音声に表れる感情の手がかり • 音声から様々な特徴量を抽出 ‒ メル尺度に基づく特徴量 メルスペクトログラム:人間の聴覚特性を考慮した尺度(メル尺度)に基づく時系列情報 メル周波数ケプストラム係数(MFCC):メルケプストラムの低次成分 ‒ 感情表現に関連する音響特徴量を選択した特徴量セット ComParE(COMputational

    PARalinguistics challengE)2016: エネルギー系/スペクトル系/有声音源系についての統計量を含む6,373次元の特徴量 GeMAPS(GEneva Minimalistic Acoustic Parameter Set): 周波数系/エネルギー・振幅系/スペクトル系についての統計量を含む62次元の特徴量 eGeMAPS(Extended GeMAPS):GeMAPSにMFCCなどを追加した88次元の特徴量 ‒ 自己教師あり学習モデルの埋め込み表現 最終層からの出力よりも中間層からの出力が音声感情認識に有効 [L.Pepino+ 2021][A.Saliba+ 2024] 2025/10/01 © 2025 Ryotaro Nagase / 55 14
  10. カテゴリ感情認識モデルの評価 • WA(Weighted Accuracy) ‒ 全データに対して予測が正解した割合 • UA(Unweighted Accuracy) ‒

    各クラスにおける正解率の平均 2025/10/01 WA = 正解数 全データ数 UA = 1 𝐶𝐶 � 𝑐𝑐 𝐶𝐶 クラス𝑐𝑐における正解数 クラス𝑐𝑐における全データ数 © 2025 Ryotaro Nagase / 55 20
  11. 次元感情認識モデルの評価 • 一致相関係数(Concordance Correlation Coefficient) ‒ 予測・正解の平均と分散の一致性を考慮した相関係数 ‒ 相関が高い場合でもペナルティが発生 2025/10/01

    𝜌𝜌CCC = 2𝜌𝜌PCC 𝜎𝜎𝑥𝑥 𝜎𝜎𝑦𝑦 𝜎𝜎𝑥𝑥 2 + 𝜎𝜎𝑦𝑦 2 + 𝜇𝜇𝑥𝑥 − 𝜇𝜇𝑦𝑦 2 𝜌𝜌PCC: ピアソン相関係数, 𝜎𝜎𝑥𝑥, 𝜎𝜎𝑦𝑦 : 予測・正解の標準偏差 𝜇𝜇𝑥𝑥, 𝜇𝜇𝑦𝑦 : 予測・正解の平均 © 2025 Ryotaro Nagase / 55 21
  12. 音声感情認識の歴史 [B.W.Schuller 2018 を参考に作成] 2025/10/01 [1970年代] 音声から感情を 判定する 最初期の特許群が 出願・登録

    [1996年] 音声感情認識の 先駆けとなる 研究が発表される [F.Dellaert+ 1996] © 2025 Ryotaro Nagase / 55 23
  13. 音声における感情認識 [F.Dellaert+, ICSLP’96] [概要] ‒ ピッチ情報(基本周波数:F0)を用いた5感情分類 喜び,悲しみ,怒り,恐れ,平静 約1,000発話の感情音声音声を収録 [ポイント] ‒

    2つの特徴量セットを設計 セットA(7次元):有声区間のF0の平均/標準偏差/最大/最小/値域/全体の傾き/話速 セットB(17次元):平滑化F0とその変化率の統計量,リズム,各有声部分の統計量 ‒ ベイズ推定/カーネル回帰/K近傍法で認識器を学習 [結果] ‒ F0が音声感情認識に有効であることを確認 K近傍法+Set Bで誤り率最大20%台前半 2025/10/01 © 2025 Ryotaro Nagase / 55 24
  14. 音声感情認識の歴史 [B.W.Schuller 2018 を参考に作成] 2025/10/01 [1970年代] 音声から感情を 判定する 最初期の特許群が 出願・登録

    [1996年] 音声感情認識の 先駆けとなる 研究が発表される [F.Dellaert+ 1996] [2000年代] 特徴量セット設計と 機械学習による 認識モデルの 研究が盛んに [2009年] INTERSPEECH2009 Emotion Challenge が開催 [B.Shuller+ 2009] © 2025 Ryotaro Nagase / 55 25
  15. INTERSPEECH2009 Emotion Challenge [B.Schuller+, INTERSPEECH2016] [概要] ‒ カテゴリ感情認識のコンペティション Open Performance

    Sub-Challenge:特徴量セット設計と分類アルゴリズムを競う Classifier Sub-Challenge:提供される特徴量セットを使って分類アルゴリズムを競う Feature Sub-Challenge:感情認識に最適な特徴量セットを競う [ポイント] ‒ 再現性を確保した上で認識モデルの性能を競う IS09:主催者側が用意した特徴量セット(384次元) FAU-AIBO:犬型ロボットと対話する子供の感情音声を収録 [結果] ‒ 複数の手法を比較可能にする再現性の土台を提供 統一されたデータセット(データ分割を含む),特徴量,ベースライン 5感情分類(IS09+SVM)の再現率:約35% 2025/10/01 表:IS09の特徴量一覧 © 2025 Ryotaro Nagase / 55 26
  16. 音声感情認識の歴史 [B.W.Schuller 2018 を参考に作成] 2025/10/01 [1970年代] 音声から感情を 判定する 最初期の特許群が 出願・登録

    [1996年] 音声感情認識の 先駆けとなる 研究が発表 [F.Dellaert+ 1996] [2000年代] 特徴量セット設計と 機械学習による 認識モデルの 研究が盛んに [2011年以降] 深層学習の活用と End-to-End 認識モデルの 研究が盛んに [2009年] INTERSPEECH2009 Emotion Challenge が開催 [B.Shuller+ 2009] [2017年] CNNを活用した End-to-endに近い 研究が発表 [AM.Badshah+ 2017] © 2025 Ryotaro Nagase / 55 27
  17. スペクトログラムを用いたCNNによる音声感情認識 [AM.Badshah+, PlatCon, 2017] [概要] ‒ 音声感情認識に畳み込みニューラルネットワーク(CNN)を導入 [ポイント] ‒ スペクトログラムから階層化したCNNで感情を推定

    感情分類で微調整したAlexNetと比較 [結果] ‒ EMODBを用いた7感情分類において56.2%の正解率 「恐れ」と「喜び」の正解率が比較的低い 2025/10/01 CNN三層+FC(一から学習した場合) © 2025 Ryotaro Nagase / 55 28
  18. 音声感情認識の歴史 [B.W.Schuller 2018 を参考に作成] 2025/10/01 [2000年代] 特徴量セット設計と 機械学習による 認識モデルの 研究が盛んに

    [2011年以降] 深層学習の活用と End-to-End 認識モデルの 研究が盛んに [2009年] INTERSPEECH2009 Emotion Challenge が開催 [B.Shuller+ 2009] [2017年] CNNを活用した End-to-endに近い 研究が発表 [AM.Badshah+ 2017] [2019年] LSTMやAttention を活用した 研究が発表 [Y.Xie+ 2019] © 2025 Ryotaro Nagase / 55 29
  19. 注意機構とLSTMを用いた音声感情認識 [Y.Xie+, IEEE/ACM Trans. ASLP, 2019] [概要] ‒ 音声感情認識に注意機構とLSTMを導入 時間および特徴量における感情の濃淡を考慮

    [ポイント] ‒ LSTMの後に時間方向および特徴量方向の注意機構を利用 感情認識において重要な時間区間と特徴量を強調 [結果] ‒ 従来のLSTMベースの手法よりも一貫して性能が向上 2025/10/01 CASIA(中,6感情) eNTERFACE(英,6感情) GEMEP(仏,12感情/18感情) © 2025 Ryotaro Nagase / 55 30
  20. 音声感情認識の歴史 [B.W.Schuller 2018 を参考に作成] 2025/10/01 [2000年代] 特徴量セット設計と 機械学習による 認識モデルの 研究が盛んに

    [2011年以降] 深層学習の活用と End-to-End 認識モデルの 研究が盛んに [2009年] INTERSPEECH2009 Emotion Challenge が開催 [B.Shuller+ 2009] [2017年] CNNを活用した End-to-endに近い 研究が発表 [AM.Badshah+ 2017] [2019年] LSTMやAttention を活用した 研究が発表 [Y.Xie+ 2019] [2021年] wav2vec2.0を 活用した 研究が盛んに [L.Pepino+ 2021] © 2025 Ryotaro Nagase / 55 31
  21. wav2vec2.0を用いた音声からの感情認識 [L.Pepino+, INTERSPEECH2021] [概要] ‒ wav2vec2.0の埋め込み表現を活用した認識器を構築 データ不足による認識モデルの学習の難しさを解消 [ポイント] ‒ wav2vec2.0の出力を音声感情認識に使う効果を調査

    従来の特徴量セット(eGeMAPS)を併用する手法も検討 wav2vec2.0における各層の重要度/ASRによる微調整の影響 [結果] ‒ 従来の特徴量のみを使うよりも認識性能が向上 (事前学習のみ)>(ASRによる微調整モデル) 2025/10/01 © 2025 Ryotaro Nagase / 55 32
  22. 音声感情認識の歴史 [B.W.Schuller 2018 を参考に作成] 2025/10/01 [2000年代] 特徴量セット設計と 機械学習による 認識モデルの 研究が盛んに

    [2011年以降] 深層学習の活用と End-to-End 認識モデルの 研究が盛んに [2009年] INTERSPEECH2009 Emotion Challenge が開催 [B.Shuller+ 2009] [2017年] CNNを活用した End-to-endに近い 研究が発表 [AM.Badshah+ 2017] [2019年] LSTMやAttention を活用した 研究が発表 [Y.Xie+ 2019] [2021年] wav2vec2.0を 活用した 研究が盛んに [L.Pepino+ 2021] [2022年以降] 大規模言語モデル を活用した 研究が盛んに [T.Gong+ 2023] © 2025 Ryotaro Nagase / 55 33
  23. LanSER: 言語モデルの支援による音声感情認識 [T.Gong+, INTERSPEECH2023] [概要] ‒ 大規模言語モデル(LLM)で音声感情認識のための弱ラベルを生成 感情ラベルなし音声データセットを利用可能に [ポイント] ‒

    発話文を用いてテキスト含意タスクを実施 含意スコアが最も高い感情を弱ラベルとしてResNet-50を学習 [結果] ‒ 弱ラベル付きデータで学習した事前学習済みモデルは音声感情認識に有効 2025/10/01 含意,矛盾, 中立を分類 © 2025 Ryotaro Nagase / 55 34
  24. 音声感情認識に残された課題 • 感情音声と感情ラベルのペアデータ不足 ‒ 音声認識のデータセットと比べると圧倒的に少ない • 感情の時間的変化の扱いが難しい ‒ 発話中の感情をただ一つのラベルで表現するのは不十分 •

    多様で複雑な感情の扱いが難しい ‒ カテゴリ感情と次元感情にはそれぞれ欠点がある カテゴリ感情:複数感情が混在する感情などの表現が難しい 次元感情:認識結果の解釈が難しい 2025/10/01 © 2025 Ryotaro Nagase / 55 36
  25. 課題の解決に向けた取り組み • 感情音声と感情ラベルのペアデータ不足 ‒ 音声認識のデータセットと比べると圧倒的に少ない 事前学習済みモデルの構築 [W.Chen+ 2024][Z.Ma+ 2024] •

    感情の時間的変化の扱いが難しい ‒ 発話中の感情をただ一つのラベルで表現するのは不十分 短区間音声感情認識 [W.Han+ 2018][R.Nagase+ 2025] • 多様で複雑な感情の扱いが難しい ‒ カテゴリ感情と次元感情にはそれぞれ欠点がある カテゴリ感情:複数感情が混在する感情などの表現が難しい 次元感情:認識結果の解釈が難しい 感情の説明文を活用した音声感情認識 [Y.Pan+ 2024][R.Nagase+ 2024][Y. Xu+, 2024] 2025/10/01 © 2025 Ryotaro Nagase / 55 37
  26. Vesper:音声感情認識のための小型で効果的な事前学習済みモデル [W.Chen+, IEEE Trans. AC, 2024] [概要] ‒ 小型で音声感情認識に強い事前学習済みモデルの構築 [ポイント]

    ‒ WavLMのパラメータを初期値として利用しつつ知識蒸留 ‒ 音声エネルギーに基づいた粒度の異なるマスキング エネルギー高={怒り,興奮},エネルギー低={悲しみ,憂鬱} 浅い層:音素単位のマスク,深い層:単語単位のマスク 感情ラベルは不使用 [結果] ‒ WavLMのモデルパラメータを約5~7割削減 ‒ 音声感情認識の性能も向上 2025/10/01 © 2025 Ryotaro Nagase / 55 39
  27. emotion2vec:音声感情表現のための自己教師あり事前学習 [Z.Ma+, ACL, 2024] 2025/10/01 [概要] ‒ 様々な言語/タスクに汎用的に使えるモデルの構築 [ポイント] ‒

    大局的かつ局所的な感情表現に着目し知識蒸留 発話レベル損失とフレームレベル損失を併用 教師モデルは指数移動平均(EMA)で更新 感情ラベルは不使用 [結果] ‒ 他の自己教師あり学習モデルよりも高い表現力を獲得 (emotion2vec+FC,IEMOCAP)WA:72.9% 感情の潜在表現をうまく分離 © 2025 Ryotaro Nagase / 55 40
  28. 音声感情認識のための時間的モデリング [W. Han+ 18] • 次の規則に従って生成された感情ラベル列の認識器を学習 a. 感情状態: 有声音素(母音+有声子音) b.

    非感情状態: 無音, 休止,間,無声子音 感情ラベル列 音素列 テキスト “YES, YES. [LAUGHTER]” 書記素-音素変換 “/𝐣𝐣𝛜𝛜s, 𝐣𝐣𝐣𝐣s. [LAUGHTER]/” “H, H, H, H” 音素-感情ラベル列変換 (H:喜び) (正解感情:喜び) 2025/10/01 © 2025 Ryotaro Nagase / 55 43
  29. 音素クラス属性を考慮した短区間音声感情認識 [R.Nagase+, APSIPA Trans. SIP, 2025] • 感情ラベルを母音や有声子音,無声子音などの単位で細分化 −これらの単位を音素クラス属性と呼ぶ 音素クラス属性付き感情ラベル列

    エンコーダ デコーダ 音素クラス属性付き 感情クラス 時間 e.g.母音,有声/無声子音を 考慮する場合 有声音素 母音 従来手法 提案手法 有声子音 無声子音 非感情状態 非感情状態 2025/10/01 © 2025 Ryotaro Nagase / 55 44
  30. CLAPに基づく音声感情認識 [Y.Pan+, ICASSP, 2024] [概要] ‒ 分類したいカテゴリを自然言語で定義可能な音声感情認識 [ポイント] ‒ 音声感情認識にCLAP(Contrastive

    Language-Audio Pretraining)を活用 CLAP:正例との類似度を最大化し,負例との類似度を最小化する学習枠組み [結果] ‒ 単に音響基盤モデルを微調整した 認識モデルよりも認識性能向上 性別属性を強調することで性能がさらに改善 2025/10/01 該当クラスの場合:1 その他の場合: 0 © 2025 Ryotaro Nagase / 55 48
  31. ゼロショット音声感情認識で購買意欲を推定できるか? [R.Nagase+, APSIPA ASC, 2024] [概要] ‒ ゼロショット音声感情認識を用いた購買意欲推定 ゼロショット音声感情認識:学習時には未知の感情を推論可能な枠組み [ポイント]

    ‒ CLAPに基づく音声感情認識を購買意欲推定に活用 6感情軸毎(関心-無関心など)にCLAPで学習 推論時に購買意欲の有無をテキストで定義 e.g. 私は買う気{なし,あり}です [結果] ‒ 購買意欲推定の教師あり学習モデルと同等の性能有 他の感情に関連するクラスの推定にも応用可? 2025/10/01 © 2025 Ryotaro Nagase / 55 49
  32. CLAPに基づく音声感情認識を用いた購買意欲推定の結果 • ゼロショットな推定は教師あり学習モデルの性能と同等  「教師あり学習」と「ゼロショット」の間に有意差は見られなかった = 同等の認識性能 分類クラスを示すテキスト WA UA

    再現率 (購買意欲) No (0) Yes (1) ランダム - 49.5 49.4 48.8 50.0 教師あり学習 [Baseline] - 74.0 69.2 78.5 60.0 ゼロショット [Ours] (1) 私は買う気{なし, あり}です 61.8 62.3 61.3 63.3 (2) 私は購買意欲{なし, あり} 65.0 63.3 66.7 60.0 (3) 私は{欲しくない,欲しい}です 73.2 69.8 76.3 63.3 © 2025 Ryotaro Nagase 50 / 55 2025/10/01
  33. SECap [Y. Xu+, AAAI, 2024] [概要] ‒ 音声が伝える感情を自然言語で記述する音声感情キャプショニング [ポイント] ‒

    大規模言語モデルを出力部に活用した手法を検討 音声基盤モデルの出力をLLaMAの入力に適した形式にするネットワークを学習 [結果] ‒ 人が記述した感情キャプションと同等の出力が可能に 2025/10/01 Prompt: 「上の発話で話者の感情 を中国語で一文で描写せよ」 © 2025 Ryotaro Nagase / 55 51
  34. 大規模言語モデルを活用した音声感情キャプション収集 ※ 音声言語シンポジウム2024/ASJ2025にて発表 [概要] ‒ 音声感情キャプショニング用データの収集とモデル構築 [ポイント] ‒ ChatGPTとクラウドソーシングを活用して半自動的にデータを収集 発話内容と教師信号の感情ラベルから感情キャプション候補をChatGPTで生成

    音声に対して適切な感情キャプションをクラウドソーシングで選択 [結果] ‒ 収集した感情キャプションは人が記述した感情キャプションと同程度 2025/10/01 発話文 三時間って長すぎだろ Manual あまりに費やしたくない時間が長くてあきれている Semi-auto 長い待ち時間に強い不満を感じている 下表:収集した感情キャプションの例(感情ラベル:怒り) © 2025 Ryotaro Nagase / 55 52
  35. • 収集したデータで音声感情キャプショニングを実現 LLMを出力部に使うとより目標感情キャプションに近い出力が得られる 大規模言語モデルを活用した音声感情キャプショニング結果 2025/10/01 発話文 むやみやたらと突っ込むな 正解 無分別な行動に対して怒りを感じている 予測結果

    Baseline 普通だが少し嫌悪感を感じている Prop. 怒りと冷静さの中で 相手の行動に対して批判的である 下表:音声感情キャプショニングの出力例(感情ラベル:怒り) 下図:モデル構造 © 2025 Ryotaro Nagase / 55 53
  36. まとめ • 音声感情認識:音声から感情を推定する技術 • 音声感情認識の基礎 ‒ カテゴリ感情認識と次元感情認識 ‒ モデル構築手順 音声の準備,特徴量抽出,モデル学習,モデル評価

    • 音声感情認識の研究の歩み ‒ 1970年代から現在までの音声感情認識 ‒ 残された課題と解決に向けた取り組み 事前学習済みモデルの構築 短区間音声感情認識 感情の説明文を活用した音声感情認識 2025/10/01 © 2025 Ryotaro Nagase / 55 55