Upgrade to Pro — share decks privately, control downloads, hide ads and more …

話者情報を認識した対話要約

 話者情報を認識した対話要約

言語処理学会第27回年次大会(NLP2021) での口頭発表スライド
原稿: https://www.anlp.jp/nlp2021/program_online/pdf_dir/B7-4.pdf

概要
自動対話要約は対話文書から話者の意図を客観的に捉え,正確かつ簡潔な要約を生成することを目的としたタスクである.本研究では話者交代情報または話者識別情報を含む埋め込み表現を効果的に加算し,収束性とROUGEの向上を示した.

補足
資料は本研究の紹介とともに,対話要約研究の少なさを説明しています.

Yuji Naraki

March 20, 2021
Tweet

Other Decks in Research

Transcript

  1. 話者情報を認識した対話要約 Speaker-Aware Dialogue Summarization 楢木悠士 (Yuji Naraki)1, 酒井哲也 (Tetsuya Sakai)1

    1 早稲田大学 (Waseda University) NLP2021 B7-4 2021/03/18 自動対話要約は対話文書から話者の意図を客観的に捉え,正確かつ 簡潔な要約を生成することを目的としたタスクである.本研究では話者 交代情報または話者識別情報を含む埋め込み表現を効果的に加算し ,収束性とROUGEの向上を示した.
  2. 目次 ❏ 導入 ❏ 背景 ❏ 関連研究 ❏ 提案手法 ❏

    実験設定 ❏ 結果・考察 ❏ 結論・今後の課題 ❏ 要約例 ❏ 参考文献 2
  3. ❑ 導入 ~ 対話要約の意義と性質 ~ 話者の意図を客観的に捉え、正確かつ簡潔にまとめる ➢ SNSの会話 ➢ サービスセンターや会議での対話

    ➢ 病院での医師と患者のやりとり 目的 応用例 研究の特色 3 ✘ 対話要約のためのデータセットが少ない ✘ 抽出型要約は適さない ✘ 文書要約手法を基盤とする
  4. ❑ 背景 ~ 研究の特色 ~ 4 ✘ 対話要約のためのデータセットが少ない → SAMSumの公開

    ✘ 抽出型要約は適さない ✘ 文書要約手法を基盤とする
  5. ❑ 背景 ~ 特色① データセットが少ない ~ SAMSum[1] 対話要約のためのデータセット ➢ 言語学者によって人手で作成

    ➢ 深層学習モデルの訓練が十分に可能なデータ数 ➢ あらゆる日常会話が含まれる ex. くだらない会話, 会議の設定 図1. 対話要約の例 表1. SAMSumのデータ数 5
  6. ❑ 背景 ~ 研究の特色 ~ 6 ✘ 対話要約のためのデータセットが少ない → SAMSumの公開

    ✘ 抽出型要約は適さない ✘ 文書要約手法を基盤とする
  7. ❑ 背景 ~ 特色② 抽出型要約は適さない ~ 抽出型の対話要約の例 対話文 Mary: Hi

    Mike! Mike: Hello :) Mary: do u have any plans for tonight? Mike: I’m going to visit my grandma. You can go with me. She likes u very much. Mary: Good Idea, i’ll buy some chocolate for her. 要約文 I’m going to visit my grandma. You can go with me. i’ll buy some chocolate for her. 7 抽出型対話要約の問題点 ▻ 一人称・二人称 ▻ 口語
  8. ❑ 背景 ~ 研究の特色 ~ 8 ✘ 対話要約のためのデータセットが少ない → SAMSumの公開

    ✘ 抽出型要約は適さない → 一人称・二人称・口語が ❌ ✘ 文書要約手法を基盤とする ✘ 対話要約のためのデータセットが少ない → SAMSumの公開 ✘ 抽出型要約は適さない → 一人称・二人称・口語が ❌ ✘ 文書要約手法を基盤とする 対話要約 = 文書要約 + α(対話に特化) → 最新の要約手法を用いるには時間がかかる
  9. ❑ 背景 ~ 対話要約研究の特色の考察 ~ 文書要約手法の変遷 2000年 〜 2014年 抽出型要約

    (ex. TextRank) 2015年 〜 2018年 RNNを用いた抽象型要約 (ex. Pointer Generator) 2018年 〜 2019年 Transformerを用いた抽出型要約 (ex. BERTSum) 2020年 〜 現在 Transformerを用いた抽象型要約 (ex. PEGASUS) 9
  10. ❑ 背景 ~ 対話要約研究の特色の考察 ~ 文書要約手法の変遷 2000年 〜 2014年 抽出型要約

    (ex. TextRank) 2015年 〜 2018年 RNNを用いた抽象型要約 (ex. Pointer Generator) 2018年 〜 2019年 Transformerを用いた抽出型要約 (ex. BERTSum) 2020年 〜 現在 Transformerを用いた抽象型要約 (ex. PEGASUS) 10 → そもそも対話要約の研究が少ないにも関わらず、 → Transformerを用いた対話要約の研究はほとんど見られない
  11. ❑ 関連研究 ~ 対話要約手法 ~ ➢ 2018年 Gooら[6] ◦ RNNをベースとした構造

    ◦ 発言の役割(role)を副次的に学習 ➢ 2019年 Yuanら[8] ◦ Pointer Generatorを基にした構造 ◦ 対話のトピック(domain)を副次的に学習 ➢ 2020年 Zhaoら[17] ◦ Pointer Generatorを基にした構造 ◦ トピックとなる単語と発言間の相互関係を考慮 I. 対話特有の特徴をモデルに認識させる A. 発言の役割や関係性 B. 対話のトピック II. RNN、特にPointer Generator、をベースとした研究が活発 11
  12. ❑ 提案手法(前提) ~ Embedding (埋め込み表現) ~ ❖ Token Embedding 単語を表すベクトル

    ❖ Position Embedding 入力文中の位置を表すベクトル ❖ Segment Embedding (要約タスクには用いられないため省略) 入力文中の役割の違いを表すベクトル 図2. Transformerの入力に用いられるEmbeddingの構造 12
  13. ❑ 提案手法① ~ Turn Embedding & Speaker Embedding ~ ❖

    Turn Embedding 2種類のベクトルを持つ。 話者交代のタイミングでベクトルを変える。 ❖ Speaker Embedding 発言の話者ごとに異なるベクトルを与える。 図4. 提案手法を加えたEmbeddingの構造 対話例 Tom: Hello Ana: Hi John: What’s up? 13 図3. 簡素な対話例
  14. ❑ 提案手法② ~ Partial Turn/Speaker Embedding ~ ❖ Position Embedding

    入力文中のトークンの位置を表すベクトル モデルに入力できる最大トークン数 x Embeddingの次元数 → 今回の実験では512 x 1024 図5. 視覚化したPosition Embedding 14
  15. ❑ 提案手法② ~ Partial Turn/Speaker Embedding ~ 図6. Partial Turn/Speaker

    Embeddingの構造 ❖ Partial Turn Embedding / PartialSpeaker Embedding Position Embeddingの情報量の少ない箇所に限定的に加算する → 今回の実験では128次元 x 2箇所 = 256次元 15
  16. ❑ 実験設定 モデル: PEGASUS (次スライドで説明) データセット: XSum (事前学習), SAMSum (fine-tuning)

    評価指標: ROUGE, 人手評価 有意性の検証: Tukey HSD検定 比較実験5種 ❖ ベースライン: PEGASUSをSAMSumで学習させる ❖ Turn Embedding: ベースラインにTurn Embeddingを追加 ❖ Speaker Embedding: ベースラインにSpeaker Embeddingを追加 ❖ Partial Turn Embedding: ベースラインにPartial Turn Embeddingを追加 ❖ Partial Speaker Embedding: ベースラインにPartial Speaker Embeddingを追加 16
  17. ❑ 結果・考察 ~ Validation Loss ~ ★ Turn/Speaker Embeddingを用いるとLossが高止まり ★

    BaselineとPartial Turn/Speaker Embeddingを用いた手法は同程度のLossに収束 ★ Partial Turn/Speaker Embeddingを用いることでLossの低下が早い → Partial Turn/Speaker Embeddingはモデルの収束性を向上させる 図8. Validation Lossの変遷 18
  18. ❑ 結果・考察 ~ ROUGEスコア ~ ★ Turn/Speaker Embeddingを用いた場合、大幅なスコアの低下 ★ Partial

    Turn/Speaker Embeddingを用いた場合、スコアの向上 ROUGE-2のTukey HSD検定により Turn EmbedとSpeaker Embedの2手法は ベースライン, Partial Turn Embed, Partial Speaker Embedの3手法と 統計的に有意な差が認められた。 表2. ROUGEスコアの結果 19
  19. ❑ 結果・考察 ~ 人手評価 ~ 図9. 人手評価のUI ➢ ベースライン ➢

    Partial Speaker Embedding 以上の2手法について Preferenceの評価を実施した * 入力文のトークン数が512以下 & 二つの生 成要約中に出現する単語集合の Jaccard係 数が0.8以下のデータを無作為に 60個抽出し た。1つのデータに3人の評価者を割り当て、 1 人15個の評価を12名実施した。 20 評価者に示した基準 「対話を客観的に捉え、要点を簡潔にま とめた短文にすること」
  20. ❑ 結果・考察 ~ 人手評価 ~ ★ 3つ全ての項目においてPartial Speaker Embeddingの方が 多くの票を獲得した。

    → Partial Speaker Embeddingを用いることで → 要約を改善していると示唆される。 表3. 人手評価の結果 * Totalはすべての票数、Winsは評価の多いデータ数、 Unanimityはすべての票を獲得したデータ数である 21
  21. ❑ 結果・考察 ~ 要約例 ~ 22 Dialogue Shelly: This year

    I'm volunteering at the food shelter! Tracy: Good 4 u! Jody: Gr8! Shelly: How about u? Any volunteer work? Tracy: Nah. Not into that. Jody: Sure! Every year I do some charity 4 Xmas :) Summary Shelly is volunteering at a food shelter and asks if others do some volunteer work. Tracy is not into that, but Jody always does some charity for Christmas. Baseline Shelly is volunteering at the food shelter this year. Tracy does charity work every year. Partial Speaker Embedding Shelly is volunteering at the food shelter this year. Tracy doesn't want to do any volunteer work. ボランティアの話 ★ Tracyはボランティアに興味がない ★ Jodyは毎年チャリティをしている。 ❌ Tracyは毎年チャリティをしている ⭕ Tracyはボランティアをしたくない
  22. ❑ 結果・考察 ~ 要約例 ~ 23 Dialogue Josh: Stephen, I

    think you've accidentally taken my notebook home Stephen: wait lemme check Stephen: nope, I don't see it anywhere Jack: oh shit, I've got it xDDD I don't even know why Josh: xDDD ok, no problem, cool I know where it is Jack: I'll bring it tomorrow Summary Josh thinks Stephen accidentally took his notebook. Jack has it and will bring it tomorrow. Baseline Jack found Josh's notebook. Partial Speaker Embedding Jack accidentally took Josh's notebook home. Jack will bring it tomorrow. Joshのノートがどこかに行った ★ Stephenは持っていなかった ★ Jackがなぜか 持 っていたから 明日持っていく 🔺 JackがJoshのノートを見つけた ⭕ Jackが偶然家に持って帰っていたから、明日返す
  23. ❑ 結果・考察 ~ 要約例 ~ 24 Dialogue Maddie: I'm in

    Asda, do you need anything? John: could do with a white bread and some apples Maddie: ok. Gala? John: yes please ta Summary Maddie will buy a white bread and apples on John's request. Baseline John will buy white bread and some apples at Asda. Partial Speaker Embedding John will buy white bread and some apples for Maddie in Asda. MaddieがJohnに頼まれて 白いパンとりんごをいくつか買う ❌ Johnが買う ❌ Johnが買う ベースラインとPartial Speaker Embeddingのどちらも間違えている
  24. ❑ 結論・今後の課題 結論 ❖ 話者交代情報を含むTurn Embedding ❖ 話者識別情報を含むSpeaker Embedding ❖

    限定的に加算するPartial Turn/Speaker Embedding → Partial Turn/Speaker Embeddingは → モデルの収束性と要約性能の向上をもたらす 今後の課題 ➔ 意味上の性能の違いの分析 (QAGS) ➔ PEGASUSに限らず,、他のモデルでの追加Embeddingの効果検証 ➔ 提案手法に関する最良のパラメータ探索 ➔ 要約に限らず、あらゆる対話ドメインタスクへの応用 25
  25. ❑ 参考文献 [1] Bogdan Gliwa, Iwona Mochol, Maciej Biesek, and

    Aleksander Wawer. SAMSum corpus: A human-annotated dialogue dataset for abstractive summarization. In Proceedings of the 2nd Workshop on New Frontiers in Summarization, 2019. [2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, 2017. [3] Abigail See, Peter J. Liu, and Christopher D. Manning. Get to the point: Summarization with pointer-generator networks. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2017. [4] Yang Liu and Mirella Lapata. Text summarization with pretrained encoders. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 2019. [5] Jingqing Zhang, Yao Zhao, Mohammad Saleh, and Peter Liu. PEGASUS: Pre-training with extracted gap-sentences for abstractive summarization. In Proceedings of the 37th International Conference on Machine Learning, 2020. [6] C. Goo and Y. Chen. Abstractive dialogue summarization with sentence-gated modeling optimized by dialogue acts. In 2018 IEEE Spoken Language Technology Workshop (SLT), 2018. [7] Jean Carletta, Simone Ashby, Sebastien Bourban, Mike Flynn, Mael Guillemot, Thomas Hain, Jaroslav Kadlec, Vasilis Karaiskos, Wessel Kraaij, Melissa Kronenthal, Guillaume Lathoud, Mike Lincoln, Agnes Lisowska, Iain McCowan, Wilfried Post, Dennis Reidsma, and Pierre Wellner. The ami meeting corpus: A pre-announcement. In Proceedings of the Second International Conference on Machine Learning for Multimodal Interaction, 2005. [8] Lin Yuan and Zhou Yu. Abstractive dialog summarization with semantic scaffolds, 2020. https://openreview.net/forum?id=B1eibJrtwr. [9] Paweł Budzianowski, Tsung-Hsien Wen, Bo-Hsiang Tseng, Iñigo Casanueva, Stefan Ultes, Osman Ramadan, and Milica Gašic ́. MultiWOZ - a large-scale multi-domain Wizard-of- Oz dataset for task-oriented dialogue modelling. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, 2018. [10] Jia-Chen Gu, Tianda Li, Quan Liu, Zhen-Hua Ling, Zhiming Su, Si Wei, and Xiaodan Zhu. Speaker-aware bert for multi-turn response selection in retrieval-based chatbots. In Proceed- ings of the 29th ACM International Conference on Information and Knowledge Management, 2020. [11] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, Alban Desmaison, Andreas Kopf, Edward Yang, Zachary DeVito, Martin Raison, Alykhan Tejani, Sasank Chilamkurthy, Benoit Steiner, Lu Fang, Junjie Bai, and Soumith Chintala. Pytorch: An imperative style, high-performance deep learning library. In Advances in Neural Information Processing Sys- tems, 2019. [12] Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Remi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander Rush. Transformers: State-of-the- art natural language processing. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, 2020. [13] Shashi Narayan, Shay B. Cohen, and Mirella Lapata. Don’t give me the details, just the sum- mary! topic-aware convolutional neural networks for extreme summarization. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, 2018. [14] Chin-Yew Lin. ROUGE: A package for automatic evaluation of summaries. In Text Summa- rization Branches Out, 2004. [15] Benjamin Carterette. Multiple testing in statistical analysis of systems-based information retrieval experiments. ACM Transactions on Information Systems - TOIS, Vol. 30, No. 1, pp. 1–34, 2012. [16] Alex Wang, Kyunghyun Cho, and Mike Lewis. Asking and answering questions to evaluate the factual consistency of summaries. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020. [17] Zhao, Lulu, Xu, Weiran, and Guo, Jun. Improving Abstractive Dialogue Summarization with Graph Structures and Topic Words. Proceedings of the 28th International Conference on Computational Linguistics, 2020 26
  26. ❑ Appendix ~ Position Embedding ~ Position Embeddingの設計は2通りある i. sin/cosを用いた固定Embedding

    ii. 初期Embedding → 逆伝搬による学習 どちらがよいかは未だ明らかになっていない 最近は学習する(ii)が使われている印象? 固定Embedding(i)のメリット ↓ ★ 入力長or次元数が変化してもスケール可能 (ii)だと学習し直さなければならない。 ★ 情報量の分布から本研究のような工夫が可能 ← new!! 27