【卒業研究】会話ログ分析によるユーザーごとの関心に応じた話題提案手法

会話ログ分析によるユーザーごとの関心に応じた話題提案手法武蔵野大学院工学研究科数理工学専攻1年佐々木研究室白川桃子指導教員佐々木多希子 1

初対面の人って何を話せばいいの？ 2

01 研究背景どの世代の人も初対面の人との会話に苦手意識があり何を話せばいいか分からないのが原因 3

02 本研究の目的 4 あなたの雑談を分析 ↓ 興味のあるトピックを抽出 ↓ 初対面の人と話すときにあなたにとって最適な話題を提案！

02 本研究の目的目的 - 1 ユーザーの関心に基づいた話題提供の実現目的 - 2 ユーザーの興味関心を定量的に評価する
目的 - 3 話題提供をすることで初対面時の会話の盛り上げる 5

03 自然言語処理とは自然言語処理(NLP)：人々が日常的に用いる言語(=自然言語)を分析対象とし，その意味を正しく解析できるようにする技術自然言語理解(NLU)：機械が文章の作りや意味を解析することで文章を判別自然言語生成(NLG)：入力されたデータに基づき機械が応答する文章を生成する機械学習ベースルールベース統計ベース 6

04 本研究で活用するデータ＠データn番（会話時間）＠収集年月日：xxxx年xx月xx日＠場所：会話場所＠参加者ナンバー：性別，年齢，出身，所在 . . ＠参加者の関係：関係性参加者ナンバー:会話内容
. . %com: 補足情報 () 相槌 <笑いor間> 自分の笑い，ある程度の沈黙名古屋大学の会話データを活用 (不必要な情報を削除し，DataFrameでデータ整理) 会話1つずつにラベル群から最もマッチするラベルを付与したい会話データを相当量学習する必要があるが，会話が129個しかない前処理 7 trainデータとtestデータが一致していなくても分類可能な手法を活用

05 ゼロショットラーニング – 概要 trainデータが存在しないものに対して事前に特徴を学習する形で識別することが可能【trainデータ】一般的な学習方法の場合... trainデータと同じ項目について予測
Zero-shot-learning... tainデータとは違う新たな項目について予測【testデータ】 8 犬データ猫データ

05 ゼロショットラーニング – 概要 trainデータが存在しないものに対して事前に特徴を学習する形で識別することが可能【trainデータ】一般的な学習方法の場合... trainデータと同じ項目について予測
Zero-shot-learning... tainデータとは違う新たな項目について予測【testデータ】 9 犬データ猫データ【解決へのアプローチ方法】ラベルの代わりに文章を使う

05 ゼロショットラーニング – 概要 10 trainデータ赤いうちわを持って花の前に立つ女性赤い羽と黒い目を持った鳥がうつむく
水の上で遊ぶ黒い鳥黄色い花の前でうつむく女性細かい情報まで特徴空間に表現可能人間鳥特徴空間花立つ黒うつむく嘴前水赤い推論データに近い特徴を使い文章を出力赤い嘴の鳥 testデータ

05 ゼロショットラーニング – 問題の定式化 11 ◯活用する2つのクラス 𝑆：学習用の可視クラス (本研究ではtrainデータの日本語SNLIデータ．548,014ペア．) 𝑈：予測用の不可視クラス (本研究ではtestデータの名大会話コーパス，noteのカテゴリ)
𝑆 = 𝑐𝑖 𝑠 𝑖 = 1, … , 𝑁𝑠 } 𝑈 = 𝑐𝑖 𝑢 𝑖 = 1, … , 𝑁𝑢 } 𝑆 ⋂ 𝑈 = ∅ ◯各クラスに含まれる集合 𝐷𝑡𝑟 ：可視クラスのラベル付きインスタンスの集合 𝐷𝑡𝑟 = { 𝑥𝑖 𝑡𝑟, 𝑦𝑖 𝑡𝑟 ∈ 𝑋 × 𝑆} 𝑖=1 𝑁𝑡𝑟 𝑋：特徴空間 𝑥𝑖 𝑡𝑟, 𝑦𝑖 𝑡𝑟 ：各ラベル付きインスタンス 𝑥𝑖 𝑡𝑟：𝑋内のインスタンス 𝑦𝑖 𝑡𝑟： 𝑥𝑖 𝑡𝑟に対応するラベル 𝑋𝑡𝑒：テストデータのインスタンスの集合 𝑋𝑡𝑒 = {𝑥𝑖 𝑡𝑒 ∈ 𝑋} 𝑖=1 𝑁𝑡𝑒 𝑥𝑖 𝑡𝑒：𝑋内のテストインスタンス 𝑌𝑡𝑒：𝑋𝑡𝑒に対応する予測られたラベルのクラス 𝑌𝑡𝑒 = {𝑦𝑖 𝑡𝑒 ∈ 𝑈} 𝑖=1 𝑁𝑡𝑒 𝑆 𝑈

05 ゼロショットラーニング – マッチングモデルの構築 12 𝑥𝑖 𝑡𝑟, 𝑦𝑖 𝑡𝑟 の例：
(いちごを食べます, いちごは食品だ) ↓ BERTエンコーダーへの入力形式に変換 [CLS] いちごを食べます [SEP] いちごは食品だ [SEP] 「いちごを食べます」という文に対して「いちごは食品だ」は同じような意味を持つか ↑こんな感じの操作を 𝑥𝑖 𝑡𝑟, 𝑦𝑖 𝑡𝑟 を変えながら繰り返していく以下のように線形層(1)を重ね，損失(2)を計算 𝑝𝑥,𝑦′ = 𝜎(𝑊𝑇𝑐𝑥,𝑦′ + 𝑏) (1) 𝐿 = ቐ − log 𝑝𝑥,𝑦′ 𝑦′ = 𝑦 −log(1 − 𝑝𝑥,𝑦′ ) 𝑦′ ≠ 𝑦 (2) 𝑊, 𝑏：線形層のパラメーター(𝑊 ∈ 𝑅𝐻 , 𝑏 ∈ 𝑅) 𝑐𝑥,𝑦′ ：各文章に対応する隠れベクトル(𝐻次元) 𝑝𝑥,𝑦′ ：𝑥と𝑦′のマッチングスコア 𝜎(・)：シグモイド関数 𝑳が小さくなるようにモデルを構築していく

05 ゼロショットラーニング – 予測 13 会話の各文章と「この文章は{noteカテゴリ}に関する会話だ」は似た意味を持つか？テキスト𝑥とのマッチングスコアが最大となるようなラベル𝑦∗を擬似ラベルとする．会話内容 noteカテゴリマッチングスコア
現時点の𝑦∗ 最近は、女性の方が旅行に行くんじゃないの？ショッピング 0.58 旅行・おでかけ 0.79 IT 0.15 読書 0.23 これらの過程を通して各会話データ(testデータ)に最適なラベルを付与できる！

06 興味関心の定量化 14 記号設定 𝑁: 会話データの総数 𝑃: 参加者の集合 𝐿: ラベルの集合
𝑆𝑖,𝑗 : i番目の会話での参加者jの発言量 𝑉𝑖 ： i番目の会話とラベルの一致率 𝑙𝑖 ： i番目の会話ラベル定量化の流れ各会話における関心度 𝑆𝑐𝑜𝑟𝑒𝑖,𝑗 = ቐ 𝑉𝑖 ・𝑆𝑖,𝑗 𝑙𝑖 = 𝑙 0 𝑙𝑖 ≠ 𝑙 各トピックに対する関心度 𝐼𝑛𝑡𝑒𝑟𝑒𝑠𝑡𝑖,𝑗 = σ 𝑖=1 𝑁 𝑆𝑐𝑜𝑟𝑒𝑖,𝑗 𝑛𝑙 𝑛𝑙 > 0 0 𝑛𝑙 = 0 𝑛𝑙 = ෍ 𝑖=1 𝑁 1 𝑙𝑖=𝑙 : 参加者がラベル 𝑙に関与した会話の総数 1{𝑙𝑖=𝑙} : 𝑙𝑖 = 𝑙の場合は1，そうでない場合は0を返す 𝐼 = 𝐼𝑛𝑡𝑒𝑟𝑒𝑠𝑡1,1 ⋯ 𝐼𝑛𝑡𝑒𝑟𝑒𝑠𝑡1,|𝐿| ⋮ ⋱ ⋮ 𝐼𝑛𝑡𝑒𝑟𝑒𝑠𝑡 𝑝 ,1 ⋯ 𝐼𝑛𝑡𝑒𝑟𝑒𝑠𝑡 𝑃 ,|𝐿| 結果の行列式化

07 話題とマッチングスコアの提示 15 共通ラベルが共通ラベルの個数がそのラベルを表示関心度の平均値が最大のラベルを表示会話する人の中で最大の関心度を持つ
ラベルを表示あるない 1個 2個以上テクノロジー 60% エンタメ 30% テクノロジー 80% アウトドア 40% テクノロジー興味関心スコア平均：70% マッチングスコアに基づいて各ユーザーの興味関心を定量化する

08 評価 –testデータのラベル分布 16 男性女性・女性の方が男性よりばらつきが大きい →女性の方がトピックについての知識が浅くともその会話に参加する可能性を示唆・男性はデータ分布が関心度の低い方に集中しているが，上振れした外れ値が女性よりも多い →これは男性の方が1つの分野について極端に詳しいという専門性の高さを示す結果となった．

08 評価 – 実験の設定 17 被験者計11名(男性7名，女性4名) 実験手順 (イ)オンライン通話サービスoviceに被験者が入室． (ロ)文字起こし機能を使いながら10分程度会話をする．
※被験者が初対面の場合はラベルを提示する． (ハ)文字起こしデータをcsv形式で出力する． (ニ)ラベル候補を示し，(ロ)の会話に適したラベルを選択． ※複数選択可能被験者組み合わせ知り合いの会話：7会話初対面の人との会話【共通ラベルあり】：3会話初対面の人との会話【共通ラベルなし】：1会話 ※各会話の参加者は被験者中から2,3人抽出する被験者年齢性別出身地被験者A 20代前半女性埼玉県被験者B 20代前半女性東京都被験者C 50代前半男性奈良被験者D 20代前半男性千葉被験者E 60代前半男性新潟実験実施例

08 評価 – 初対面会話時の発話量 18 話題提供なし話題提供あり話題提供あり話題提供あり・第一四分位範囲と第三四分位範囲について大差はない
→どの会話においても発話量の傾向にも大差がない・外れ値について下振れた外れ値：なし上振れた外れ値：被験者Aに着目すると話題提供がある会話全部で発生 →話題がないと会話慎重になっており極端に長い発言が発生しなかったのでは →話題提供がある方が自分の意見や経験談を生き生きと発言できる可能性が示唆

08 評価 – 会話中の感情推移 19 話題提供なし話題提供あり話題提供あり話題提供あり POSITIVE，NEGATIVE，NEUTRALの3感情を分析
(可視化する上でstatusmodelsを用いて平滑化を実施) ニュートラルスコアの値が0.8~1.0で安定ポジティブ，ネガティブニュートラルよりも値の変化が大きい「使ったことないから気になります」 →本質的にネガティブでない可能性もあり話題提供がない時はポジティブ，ネガティブの面積が約15%狭い話題提供がある方が感情豊かに会話が実現 →初対面のうちからより印象に残るインパクトのある会話が実現

09 目標達成の判定パーソナライズされた話題提供の実現ユーザーの興味関心を定量的に評価する話題提供をすることで初対面時の会話の盛り上げる 20 目的 - 1 目的
- 2 目的 - 3

パーソナライズされた話題提供の実現ユーザーの興味関心を定量的に評価する話題提供をすることで初対面時の会話の盛り上げる 21 →会話ログを分析し個々人の興味を抽出・話題選定 →会話のラベルごとに関心度スコアを算出目的 - 1 目的
- 2 目的 - 3 →生き生きと発言し感情豊かな会話を実現 09 目標達成の判定

10 今後の展望会話の盛り上がり評価関数の作成会話を文字データにするSpeech to Textの実装本研究のサービス化 22 展望 -
1 目的 - 2 目的 - 3

11 参考文献 23 [1]株式会社R&G”会話が苦手なランキング！克服方法も解決”(2024,11,24) https://r-andg.jp/blog/4733 [2]合同会社Techtale “秒で話題をご提供トークテーマガチャ!!” https://talkgacha.com/ [3] 小町守(2024)
“自然言語処理の教科書” 株式会社技術評論社 [4]白井清昭(2006)” 自然言語処理論Ｉ 7. 形態素解析(日本語の単語分割)” [5] 藤村逸子，大曽美恵，大島ディヴィッド義和(2011) “会話コーパスの構築によるコミュニケーション研究” 藤村逸子、滝沢直宏編『言語研究の技法：データの収集と分析』p.43-72、ひつじ書房 [6]PythonDocs”re --- 正規表現操作”Python3.13.1Document https://docs.python.org/ja/3.13/library/re.html [7] Zhiquan Ye, Yuxia Geng, Jiaoyan Chen, Xiaoxiao Xu, Suhang Zheng, Feng Wang, Jingmin Chen, Jun Zhang, Huajun Chen” Zero-shot Text Classification via Reinforced Self-training” Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 3014–3024 July 5 - 10, 2020. c2020 Association for Computational Linguistics [8]京都大学大学院情報学研究科知能情報学コース言語メディア分野 ”日本語SNLI(JSNLI) データセット”(2020,07,15) [9]note株式会社“note” https://note.com/ [10]国立国語研究所“現代話し言葉UniDic”UniDic(2023,03,24) https://clrd.ninjal.ac.jp/unidic/download.html#unidic_csj [11]HuggingaFace“SentenceTransformers Documentation” https://sbert.net/ [12] 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクト “MeCab: Yet Another Part-of-Speech and Morphological Analyzer” (2013,02,18) [13]oVice株式会社”ovice” https://www.ovice.com/ja

【卒業研究】会話ログ分析によるユーザーごとの関心に応じた話題提案手法

【卒業研究】会話ログ分析によるユーザーごとの関心に応じた話題提案手法

MomokoShirakawa

More Decks by MomokoShirakawa

Other Decks in Programming

Featured

Transcript

会話ログ分析によるユーザーごとの関心に応じた話題提案手法武蔵野大学院工学研究科数理工学専攻1年佐々木研究室白川桃子指導教員佐々木多希子 1

初対面の人って何を話せばいいの？ 2

01 研究背景どの世代の人も初対面の人との会話に苦手意識があり何を話せばいいか分からないのが原因 3

02 本研究の目的 4 あなたの雑談を分析 ↓ 興味のあるトピックを抽出 ↓ 初対面の人と話すときにあなたにとって最適な話題を提案！

02 本研究の目的目的 - 1 ユーザーの関心に基づいた話題提供の実現目的 - 2 ユーザーの興味関心を定量的に評価する

04 本研究で活用するデータ＠データn番（会話時間）＠収集年月日：xxxx年xx月xx日＠場所：会話場所＠参加者ナンバー：性別，年齢，出身，所在 . . ＠参加者の関係：関係性参加者ナンバー:会話内容

05 ゼロショットラーニング – 概要 trainデータが存在しないものに対して事前に特徴を学習する形で識別することが可能【trainデータ】一般的な学習方法の場合... trainデータと同じ項目について予測

05 ゼロショットラーニング – 概要 trainデータが存在しないものに対して事前に特徴を学習する形で識別することが可能【trainデータ】一般的な学習方法の場合... trainデータと同じ項目について予測

05 ゼロショットラーニング – 概要 10 trainデータ赤いうちわを持って花の前に立つ女性赤い羽と黒い目を持った鳥がうつむく

05 ゼロショットラーニング – マッチングモデルの構築 12 𝑥𝑖 𝑡𝑟, 𝑦𝑖 𝑡𝑟 の例：

06 興味関心の定量化 14 記号設定 𝑁: 会話データの総数 𝑃: 参加者の集合 𝐿: ラベルの集合

07 話題とマッチングスコアの提示 15 共通ラベルが共通ラベルの個数がそのラベルを表示関心度の平均値が最大のラベルを表示会話する人の中で最大の関心度を持つ

08 評価 – 実験の設定 17 被験者計11名(男性7名，女性4名) 実験手順 (イ)オンライン通話サービスoviceに被験者が入室． (ロ)文字起こし機能を使いながら10分程度会話をする．

08 評価 – 初対面会話時の発話量 18 話題提供なし話題提供あり話題提供あり話題提供あり・第一四分位範囲と第三四分位範囲について大差はない

08 評価 – 会話中の感情推移 19 話題提供なし話題提供あり話題提供あり話題提供あり POSITIVE，NEGATIVE，NEUTRALの3感情を分析

09 目標達成の判定パーソナライズされた話題提供の実現ユーザーの興味関心を定量的に評価する話題提供をすることで初対面時の会話の盛り上げる 20 目的 - 1 目的

10 今後の展望会話の盛り上がり評価関数の作成会話を文字データにするSpeech to Textの実装本研究のサービス化 22 展望 -

11 参考文献 23 [1]株式会社R&G”会話が苦手なランキング！克服方法も解決”(2024,11,24) https://r-andg.jp/blog/4733 [2]合同会社Techtale “秒で話題をご提供トークテーマガチャ!!” https://talkgacha.com/ [3] 小町守(2024)