Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介_I Beg to Differ A study of constructive di...

Lexuss-D
August 05, 2021

論文紹介_I Beg to Differ A study of constructive disagreement in online conversations

Lexuss-D

August 05, 2021
Tweet

More Decks by Lexuss-D

Other Decks in Research

Transcript

  1. 概要 • どんな論争 (disagreement) が建設的 (constructive) かを調査 ◦ 「WikiDisputes」というデータセットを作成 ▪

    wikipediaの記事のdisputeに関する情報を集めた ◦ 論争が建設的かどうかを予測するタスクを定義 ▪ あるDisputeは最終的にモデレーターが介入して調停されたかどうか ◦ 2種類のモデルを用意 ▪ 特徴量ベースモデル • politeness, collaboration, toxicity, sentiment ▪ ニューラルモデル • Glove , LSTM , HAN(Hierarchical Attention Network) • ニューラルモデルの性能は特徴量ベースモデルを上回った。 ◦ 会話の構造と語順を考慮したモデルが一番性能が高い 2
  2. Introduction • 論争のマイナス面: ◦ Trolling , Hate speech , Harassment

    , Personal Attack • 有益な論争に関する研究はDebateに着目 ◦ 利点:勝敗や立場が明確 ◦ 欠点:日常的な会話ではない ▪ 時間や言葉遣いなどの制限、目的は意見の一致ではなく聴衆を説得すること • 本研究は制限を付けられていない建設的な論争に興味を持った ◦ Wikipediaの記事に関するdisputesに着目 3
  3. Disputes on Wikipedia • ある記事に関する中立性や精度の議論があれば、 その記事にDispute tagが付けられる • 記事に関する議論はTalk Pageで行われる

    • 記事の編集履歴はEdit Summaryで記録される • 議論の参加者の意見が一致にならない場合、調停 (mediation)を求めることができる ⇒Escalation(深刻化、激化)になる 4
  4. WikiDisputes • 3つの部分:Talk Pageの論争、Edit summaries、Escalation tags ◦ Wikipedia revision history

    dumpでdisputesを探し、それに関する conversationsはWikiConvで探 す(7425 disputes, 99907 utterances) ▪ conversationsに対してフィルタリング • utterance数:5以上50以下 トークン総数: 250以上 参加者:2名以上 ◦ Edit Summariesを利用する理由: ▪ 会話の内容を理解するに大切 ◦ Dispute Resolution Noticeboard archivesから調停されたケースを探す ▪ 2520ケース:成功 237ケース 失敗 149ケース General closures 2134ケース(放棄) ▪ 成功ケースと失敗ケース合わせて 386ケースをEscalation tag ▪ Escalation tagを建設的かどうかを判断する代理 tagとして使用 5
  5. 特徴量ベースモデル • 4つの特徴量: ◦ Politeness: 挨拶、謝罪、Pleaseなどの用語で評価 ◦ Collaboration: アイデアの採用、代名詞の使用、言語スタイルの調整などで捉える ◦

    Toxicity: Perspective API (tool) で評価 ◦ Sentiment: 積極的または消極的な感情に関連する単語数で評価 • 各特徴量について、会話全体の平均値と会話全体の特徴量を直線でフィットさせた ときの勾配を計算 ◦ 平均値だけで会話中での言葉遣いの変化は捉えられない • ロジスティック回帰を用いて、特徴量と論争の結果との間の線形関係を推測する 6
  6. ニューラルモデル • Averaged embeddings ◦ Gloveで会話の単語ベクトルの平均を取り、全連結層で分類 ◦ 会話の構造も語順もなし • LSTM

    ◦ Gloveでベクトルを獲得し、双方向 LSTMで処理 ◦ 会話の構造はないが、語順は考慮した • HAN (Hierarchical Attention Network) ◦ Gloveでベクトルを獲得、双方向 LSTMで文脈を考慮した単語ベクトルを計算、 Attention機構で utterance のベクトルを計算し、同じ Attention機構でutteranceのベクトルを利用しconversationの ベクトルを計算する ◦ 語順も会話の構造も考慮した 7
  7. 実験設定 • タスク:DisputeがEscalated 或いは Not escalatedという2 値分類 • 実験で使うデータセットの発言数や発言の長さの影響を排 除するため、Escalated

    & Not escalatedのサンプルの発言 数と長さ、参加者数をできるだけ一致させた • データセットがimbalanceのため、評価基準はPR-AUCを使 用する。また、F1値も使用する • distribution-aware random class predictorをランダムべー ズライン 8
  8. 分析 • 挨拶の平均値(Greetings, x ̅ )は建設的でないと関連するが、挨拶 の増加(Greetings, ∇)が建設的と関連する ◦ 会話の最初で参加者が堅苦しいからちゃんと挨拶をしても

    最終的に建設的な議論になるとは限らない ◦ 会話の後半からの挨拶は新しい参加者が入ったか、返事す るまでの時間が長くなったかということを示す(返事するまで の時間は建設的と関連する) • 第2人称の使用は建設的ではないに関連する ◦ Youの使用は相手を責めるように見えるから議論では避け るべきだという心理学の研究の結論があった 10