Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介_Twitter Topic Classification

論文紹介_Twitter Topic Classification

Lexuss-D

June 07, 2023
Tweet

More Decks by Lexuss-D

Other Decks in Research

Transcript

  1. 既存の分類手法 • Topic Modeling • Topic Classification ◦ 事前に決めたカテゴリの分類タスク ◦

    人手で付けた正解ラベルが必要 ◦ Twitterの #hashtag をカテゴリラベルとする先行研究 [Dhingra et al., 2016]. ▪ カテゴリがSparseになる ▪ 一定時間後使われなくなる • SportsやArtなどの大分類をラベルとして使用することが望ましい ◦ このようなデータセットは主に新聞記事・科学 (arXiv)・医学分野(Ohsumed)にある • 本研究はソーシャルメディアの人手アノテーションデータセットを作成
  2. データセットの構築 • Tweet collection ◦ Twitter API経由 50 Tweets per keyword/

    2時間 ◦ 収集期間 2019.9 ~ 2021.8 ◦ KeywordはSnapchatの毎週のtrending topicから収集 ▪ TwitterのTrendはAPIから公開されていない ◦ retweet / reply / quote / media付きのTweetを除外 ◦ 英語OnlyのTweet約126万件のraw tweets収集 • Data filtering • Annotation • Settings & Temporal split
  3. データセットの構築 • Tweet collection • Data filtering ◦ Tweet filtering

    ▪ pre-filtering • 非英語tweetの除去・短い文の除去 ▪ near-dedupulication • emoji & URL削除や小文字変換などの前処理 • 重複削除 ◦ Trend filtering ▪ 毎週Top15のtrend topicのtweetをraw tweetsから抽出 ◦ 残ったtweetは28573件 • Annotation • Settings & Temporal split
  4. データセットの構築 • Tweet collection • Data filtering • Annotation ◦

    フィルタリングされたデータから 11374件をサンプリングしてアノテーションを行う ◦ ラベルはSnapchat社の提供した19個のトピックを使用 ◦ 1tweetあたり5人のアノテータ(Amazon Mechanical Turk)がラベルを付ける ◦ 2人以上のアノテータに付けられたラベルをその tweetのラベルとする ◦ アノテーションの品質評価 ▪ Krippendorff’s α : 0.35 vs. 0 (random annotation) ▪ アノテータ間のpercent agreement : 0.87 vs. 0.62 (random annotation) • Settings & Temporal split
  5. 評価実験 • タスク:Tweet のMulti-label分類とSingle-label分類 • 比較するモデル ◦ Baseline ▪ Random、Majority(訓練データで一番多いラベルを付ける)、

    SVM、FastText ◦ 言語モデル ▪ BERT base & large, RoBERTa base & large ▪ BERTweet • 2012.1~2019.8 845MのTweet を0から学習したRoBERTa-base ▪ TimeLM-19 • Roberta-baseを2018~2019 95MのTweet を追加学習 ▪ TimeLM-21 • Roberta-baseを2018~2021 125MのTweet を追加学習 • 学習データはテストセットと重なるため直接比較しない
  6. 誤り分析 • Arts&CultureをDaily lifeと判断 Happy Day of the Dead 2020!

    #GoogleDoodle” or “Gifts of love are the ingredients of a #MerryChristmas Give your loved ones a physical/virtual crypto gift card within the {{USERNAME}} app ◦ 宗教・文化関連だが、宗教活動は日常生活でもある ◦ データセットの分類は完璧ではない • science & technologyの40%を誤って判断 Bill Gates-Funded Company Releases Genetically Modified Mosquitoes in US ◦ business & entrepreneursと誤分類 • Multi-label分類ではcelebrity & pop cultureの誤りが 多い ◦ モデルは言及された人が有名人かどうかは知らない