Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 : Is a Knowledge-based Response Engaging

kai-yo
December 19, 2023
89

論文紹介 : Is a Knowledge-based Response Engaging

ACL2023 Student Research Workshop Best Paperの紹介。
京大黒橋研D4児玉 貴志 (Takashi KODAMA)さんの論文です。
外部知識を使った発話において、どんな発話が魅力的なのか、現在のシステムはそれができているかを分析する話です。

kai-yo

December 19, 2023
Tweet

Transcript

  1. Is a Knowledge-based Response Engaging?: An Analysis on Knowledge-Grounded Dialogue

    with Information Source Annotation Takashi Kodama, Hirokazu Kiyomaru, Yin Jou Huang, Taro Okahisa, Sadao Kurohashi NAIST/RIKEN IRD D1 吉田快
  2. 論文の概要 • ACL2023 Student Research Workshop Best Paper 研究背景 •

    既存の知識に基づいた応答生成はいかに知識を反映した発話をするかに注目 • 一方で人間の場合は、知識に+αで自分の知識や経験を混ぜることで発話をより魅力的にする • 実際にどのような発話が好まれるのかを分析 • 知識ベースの対話コーパスに外部知識(データベース由来)または話者自身の知識、経験、意見(話者由来)アノ テーションし、発話を評価 結果 • 発話に話者由来の情報が含まれることで、対話の積極性が向上 • 既存の知識ベースの応答モデルは、自身の経験を含めた応答を生成しにくい 2
  3. アノテーション • JMRDの各発話に対してアノテーション • 発話から名詞、動詞、形容詞、修飾語を抽出しそれらを次の3つに分類 1. データベース由来|その発言に使われる外部知識に基づいている。 2. 話し手由来|その実体は、その推薦映画について、発信者がもともと持っている知識、経験、意見に基づいてい る。

    3. その他|上記の2つの型に当てはまらないもの(挨拶など)。 • 一人がアノテーションし、別のアノテーターがダブルチェック • 5,075対話、56,671発話にアノテーション 5 https://github.com/ku-nlp/JMRD The action scenes(database) spectacular(speaker) ! Used knowledge/ Genre, Action
  4. 発話レベルの分析 結果 • ランダムに発話+その前の4ターンの発話を抽出 • アノテータがその発話者と会話がしたいか?という質問を5段階評価 ◦ 発話者由来 / 3.31

    ◦ 発話者由来でない / 3.07 ◦ Student t-test (p=0.05)で有意差 • 評価値と情報源の間にも明確に関係が存在 追加の分析 • 外部知識の中でも、レビューは人の経験や知識が混ぜられたデータ ◦ レビューは個人の感想 (スピーカー由来の情報とほぼ同じ特徴)とみなせる ◦ レビューのみの平均スコアと発話者由来の間に有意差は無し ◦ 話者の経験則から得られる情報が、映画に対するエンゲージメントの重要な要因 7
  5. システムの発話分析 • 目的 / 生成モデルの生成文の情報源の分布を分析 • 生成モデル (BART) をJMRDで学習 ◦

    対話履歴と外部知識を入力として、応答を生成するモデル ◦ BLEU-1/2/3/4 - 81.1/73.5/71.0/69.9 十分に精度が高いことを確認 • 情報源の分布を推定するために情報源分類器を学習 ◦ 応答と外部知識を入力として、情報源ラベルを分類 ◦ 分類モデルはRoBERTaをアノテーションしたデータで学習 ◦ F1で90.5% ◦ (感想)外部知識と入力単語が一致してれば分類できそうなので妥当な気がする 8 情報源分類モデルの精度
  6. システムと人間の発話の情報源の分布比較 • Humanのgold(アノテータが実施)とpred(分類器が予測)はどちらも同じような情報源の分布 ◦ 分類器はよい精度を持っていると言えそう • HumanとSystem間では、 ◦ データベース由来のラベルの割合が有意に増加(66.75%→85.48%) ◦

    話者由来の情報の割合が有意に減少した(27.49%→10.66%) ◦ 訓練された応答生成モデルは、人間のように話者由来の情報を用いることができない 9 人間とシステムの発話間での情報源ラベルの分布 < > >
  7. 情報ソース別の分析 • 使用された知識タイプ別に、話者由来の情報の平均比率を調査 • レビュー(31.42%→6.32%)とプロット(13.68%→2.32%)で有意な 減少 ◦ レビューとプロットが比較的長く、情報量が多い ◦ システムが話者由来の追加情報を取り入れる必要がないと判断

    したのでは 結論 • 話者由来の情報がエンゲージメントを向上させるという観察結果 • 現在のモデルは、話者由来の情報を効果的に取り入れることができない ◦ エンゲージメントが低くなっている可能性が高い。 • 既存のPerplexityを下げる学習と異なる新しい学習法が必要な可能性 10 使用された知識項目ごとの話者由来ラベルの平均値
  8. 感想 • ペルソナ対話の時の感覚と一致するので、納得感 • 雑談対話だとどうだろうか? ◦ 今回のタスクは推薦が対象 ◦ 個人的な意見があることで、推薦対象をより洞察できるから有益→エンゲージメントが高く ◦

    一方で雑談の場合は、自分語りおじと感じられてしまうのでは? • 今回はBARTでの生成モデルの実装だったが、(最近のinstructモデルの様に)長い文にペナルティがかかるように学習されてい ただけなのでは? ◦ 話者由来の情報は、外部知識由来の情報より長そう ▪ そのため、長い情報としてはじかれて表出しなかっただけ説 12