Upgrade to Pro — share decks privately, control downloads, hide ads and more …

国際会議ACL2024参加報告

Avatar for Masato Mita Masato Mita
December 14, 2024

 国際会議ACL2024参加報告

Avatar for Masato Mita

Masato Mita

December 14, 2024
Tweet

More Decks by Masato Mita

Other Decks in Research

Transcript

  1. 三⽥ 雅⼈|Masato MITA • 所属 ◦ リサーチサイエンティスト, サイバーエージェント ◦ 特任助教,

    東京都⽴⼤学 ◦ 博⼠後期課程, 東京⼤学⼤学院 • 研究の興味 ◦ ⾔語⽣成評価, 認知モデリング • 広告⽂⽣成に関する論⽂がACL2024本会議に採択 @chemical_tree
  2. ACL2024 会議概要 01 ACLとは • 計算⾔語学(CL)‧⾃然⾔語処理(NLP)分野のトップ会議 • 開催地は「欧州」→「北⽶」→「アジア‧オセアニア」で巡回 ◦ Dublin,

    Ireland (2022) ◦ Toronto, Canada (2023) ◦ Bangkok, Thailand (2024) • ACL関連の地域会議 ◦ NAACL (North America) ◦ EACL (Europe) ◦ AACL (Asia) = + + Annual Meeting of the Association for Computational Linguistics https://scholar.google.com/citations?view_op=top_venues&hl=en&vq=eng_computationallinguistics
  3. ACL2024 会議概要 01 会議の規模 • 参加者数: 3800 ◦ 現地: 3250

    ◦ オンライン: 550 • NAACL 2024: 1900 total • EMNLP 2024: 4100 total
  4. ACL2024 会議概要 01 ACL Rolling Review (ARR) • 2ヶ⽉1サイクル(偶数⽉15⽇〆切)で投稿受付する査読システム 1.

    「Preferred Venue」を選択したうえでARRに投稿 2. 良い査読結果が得られば, 発表したい会議に投稿(commitment)
  5. ACL2024 会議概要 01 ACL Rolling Review (ARR) • 2ヶ⽉1サイクル(偶数⽉15⽇〆切)で投稿受付する査読システム 1.

    「Preferred Venue」を選択したうえでARRに投稿 2. 良い査読結果が得られば, 発表したい会議に投稿(commitment) 1回⽬ (ARR 2023/8) - Review: 2/2/3 - Meta-review:2 3回⽬ (ARR 2024/2) - Review: 3/3.5/4.5 - Meta-review:4 Commit!!
 2回⽬ (ARR 2023/12) - Review: 2.5/3.5/3 - Meta-review:4
  6. 論⽂の傾向: Best papers ACL 2024 Best papers
 ACL2024 会議概要 01

    計算言語学( CL)寄りの論文も多い 

  7. 論⽂の傾向: Best papers ACL 2024 Best papers
 EMNLP 2024 Best

    papers
 ACL2024 会議概要 01 計算言語学( CL)寄りの論文も多い 

  8. ACL2024 会議概要 01 新たな取り組み • 全てポスター発表(⼀部の論⽂だけ+ ⼝頭発表の機会) • Findings採択論⽂も本会議中にポスター発表の機会が与えられる ◦

    ただし, 本会議と⽐べて発表時間が短く, ランチタイムや最終セッションなど微妙な 時間帯に割り当てられてた • ⾮公開論⽂賞 • テーマセッション「再現性を重視したオープンなNLP」 ◦ Theme: Open science, open data, and open models for reproducible NLP
  9. 論⽂紹介 03 紹介する論⽂ • 主著論⽂(宣伝) ◦ Striking Gold in Advertising:

    Standardization and Exploration of Ad Text Generation [Mita+2024] • 興味深かった論⽂の紹介 ◦ Mission: Impossible Language Models [Kallini+2024] ◦ BatchEval: Towards Human-like Text Evaluation [Yuan+2024] ◦ When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards [Alzahrani+2024]
  10. 論⽂紹介 03 Striking Gold in Advertising: Standardization and Exploration of

    Ad Text Generation [Mita+2024] • 広告⽂⽣成(ATG)の課題感 ◦ 各研究グループによる⾃社(⾮公開)データを⽤いた個々の検証に留まっている ◦ 問題設定として⼗分に既定されていない • 主要な貢献 ◦ タスクの既定‧初のオープンデータ(CAMERA)の構築 ◦ 古典的なモデルからマルチモーダルモデル, LLMなど9つの多様なATGモデルを⽤いた包括的な便 マーク実験による現在の到達点と課題の共有 ◦ ATG⾃動評価がどの程度⼈⼿評価およびオンライン評価の代替になりえるか調査(メタ評価) Data available here! (CC BY-NC-SA 4.0)
  11. 論⽂紹介 03 Mission: Impossible Language Models [Kallini+2024] • Chomsky「LLMは⼈間が学習可能な⾔語も学習不可能な⾔語も等しく学 習できる、ゆえに、LLMは⾔語について何も教えてくれない」

    ◦ → 著者「ほんとに?確かめてみよう!」 • 調査⼿法 ◦ 様々なレベルの不⾃然⾔語コーパスを作成しGPT-2を学習 ◦ ⾔語の不⾃然さとtest perplexityの間の関係を調査 • わかったこと ◦ ⼈が学習不可能な⾔語はLLMも学習が難しい
  12. 論⽂紹介 03 BatchEval: Towards Human-like Text Evaluation [Yuan+2024] • 従来のLLM評価:

    各サンプルを個別に評価するため基準のみ参照(Sample-wise evaluation paradigm) ◦ Promptのわずかな変更が評価結果に⼤きく影響 → ✘ Promptに対する頑健性 ◦ サンプル間の⽐較がないため, 評価スコアは識別性に⽋け不均⼀な分布に→ ✘ノイズに対する頑健性 • 提案⼿法(BatchEval) ◦ ⼈間評価を模倣して, 基準定義に基づいてサンプルを分析し, 「サンプル間の⽐較」を通じて識別スコ アを算出(Batch-wise evaluation paradigm)
  13. 論⽂紹介 03 When Benchmarks are Targets: Revealing the Sensitivity of

    Large Language Model Leaderboards [Alzahrani+2024] • 課題: LLMリーダーボードは評価基準が微⼩な変更に敏感で信頼性が低い ◦ MCQ(多肢選択問題)では選択肢の順序変更や回答選択⽅式の違いで⼤幅に順位変動 • 本研究の貢献 ◦ 順位変動のさまざまな要因を特定(フォーマット過剰適合, スコアリング問題...etc.) ◦ バイアス軽減のためのハイブリットスコアリングの提案 ◦ 順位に影響を与えない変更カテゴリの特定 High Bias
 High Accuracy
 Low Bias
 Low Accuracy
 Medium Bias
 Medium Accuracy