国際会議ACL2024参加報告

国際会議ACL2024参加報告三⽥雅⼈（サイバーエージェント） 2024-12-14@NL262/合同シンポジウム

三⽥雅⼈｜Masato MITA • 所属 ◦ リサーチサイエンティスト, サイバーエージェント ◦ 特任助教,
東京都⽴⼤学 ◦ 博⼠後期課程, 東京⼤学⼤学院 • 研究の興味 ◦ ⾔語⽣成評価, 認知モデリング • 広告⽂⽣成に関する論⽂がACL2024本会議に採択 @chemical_tree

ACL2024 会議概要会議の様⼦論⽂紹介 01 02 03 CONTENTS

ACL2024 会議概要 01 ACLとは • 計算⾔語学（CL）‧⾃然⾔語処理（NLP）分野のトップ会議 • 開催地は「欧州」→「北⽶」→「アジア‧オセアニア」で巡回 ◦ Dublin,
Ireland (2022) ◦ Toronto, Canada (2023) ◦ Bangkok, Thailand (2024) • ACL関連の地域会議 ◦ NAACL (North America) ◦ EACL (Europe) ◦ AACL (Asia) = + + Annual Meeting of the Association for Computational Linguistics https://scholar.google.com/citations?view_op=top_venues&hl=en&vq=eng_computationallinguistics

ACL2024 会議概要 01 ACL2024の開催地: • バンコク（タイ󰑆） • Centara Grand &
Bangkok Convention Centre at centralwOrld

ACL2024 会議概要 01 会議の規模 • 参加者数: 3800 ◦ 現地: 3250
◦ オンライン: 550 • NAACL 2024: 1900 total • EMNLP 2024: 4100 total

ACL2024 会議概要 01 ACL Rolling Review (ARR) • 2ヶ⽉1サイクル（偶数⽉15⽇〆切）で投稿受付する査読システム 1.
「Preferred Venue」を選択したうえでARRに投稿 2. 良い査読結果が得られば, 発表したい会議に投稿（commitment）

ACL2024 会議概要 01 ACL Rolling Review (ARR) • 2ヶ⽉1サイクル（偶数⽉15⽇〆切）で投稿受付する査読システム 1.
「Preferred Venue」を選択したうえでARRに投稿 2. 良い査読結果が得られば, 発表したい会議に投稿（commitment） 1回⽬ (ARR 2023/8) - Review: 2/2/3 - Meta-review:2 3回⽬ (ARR 2024/2) - Review: 3/3.5/4.5 - Meta-review:4 Commit!!  2回⽬ (ARR 2023/12) - Review: 2.5/3.5/3 - Meta-review:4

ACL2024 会議概要 01 採択率本会議には通らなかったがpublishの機会が与えられる論⽂従来のような会議に直接投稿方式と異なり「投稿数」の計算がやや複雑  

ACL2024 会議概要 01 投稿数‧採択数の推移 ChatGPTのリリース (2022/11/30) 後に急増

ACL2024 会議概要 01 論⽂の傾向: Tracks LLMを{応用, 分析・評価 , 省リソース化 }
しようとする研究が多い傾向？  

論⽂の傾向: Best papers ACL 2024 Best papers  ACL2024 会議概要 01
計算言語学（ CL）寄りの論文も多い  

論⽂の傾向: Best papers ACL 2024 Best papers  EMNLP 2024 Best
papers  ACL2024 会議概要 01 計算言語学（ CL）寄りの論文も多い  

ACL2024 会議概要 01 新たな取り組み • 全てポスター発表（⼀部の論⽂だけ+ ⼝頭発表の機会） • Findings採択論⽂も本会議中にポスター発表の機会が与えられる ◦
ただし, 本会議と⽐べて発表時間が短く, ランチタイムや最終セッションなど微妙な時間帯に割り当てられてた • ⾮公開論⽂賞 • テーマセッション「再現性を重視したオープンなNLP」 ◦ Theme: Open science, open data, and open models for reproducible NLP

ACL2025 https://2025.aclweb.org/ ACL2024 会議概要 01

ACL2025 https://2025.aclweb.org/ ACL2024 会議概要 01 Important Dates 

会議の様⼦ 02 発表‧聴講の様⼦ポスター会場  オーラル会場 

会議の様⼦ 02 ツール Whova  Underline 

会議の様⼦ 02 その他 Social Event  （本場ムエタイ）  無料弁当 

論⽂紹介 03 紹介する論⽂ • 主著論⽂（宣伝） ◦ Striking Gold in Advertising:
Standardization and Exploration of Ad Text Generation [Mita+2024] • 興味深かった論⽂の紹介 ◦ Mission: Impossible Language Models [Kallini+2024] ◦ BatchEval: Towards Human-like Text Evaluation [Yuan+2024] ◦ When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards [Alzahrani+2024]

論⽂紹介 03 Striking Gold in Advertising: Standardization and Exploration of
Ad Text Generation [Mita+2024] • 広告⽂⽣成（ATG）の課題感 ◦ 各研究グループによる⾃社（⾮公開）データを⽤いた個々の検証に留まっている ◦ 問題設定として⼗分に既定されていない • 主要な貢献 ◦ タスクの既定‧初のオープンデータ（CAMERA）の構築 ◦ 古典的なモデルからマルチモーダルモデル, LLMなど9つの多様なATGモデルを⽤いた包括的な便マーク実験による現在の到達点と課題の共有 ◦ ATG⾃動評価がどの程度⼈⼿評価およびオンライン評価の代替になりえるか調査（メタ評価） Data available here! (CC BY-NC-SA 4.0)

論⽂紹介 03 Mission: Impossible Language Models [Kallini+2024] • Chomsky「LLMは⼈間が学習可能な⾔語も学習不可能な⾔語も等しく学習できる、ゆえに、LLMは⾔語について何も教えてくれない」
◦ → 著者「ほんとに？確かめてみよう！」 • 調査⼿法 ◦ 様々なレベルの不⾃然⾔語コーパスを作成しGPT-2を学習 ◦ ⾔語の不⾃然さとtest perplexityの間の関係を調査 • わかったこと ◦ ⼈が学習不可能な⾔語はLLMも学習が難しい

論⽂紹介 03 BatchEval: Towards Human-like Text Evaluation [Yuan+2024] • 従来のLLM評価:
各サンプルを個別に評価するため基準のみ参照（Sample-wise evaluation paradigm） ◦ Promptのわずかな変更が評価結果に⼤きく影響 → ✘ Promptに対する頑健性 ◦ サンプル間の⽐較がないため, 評価スコアは識別性に⽋け不均⼀な分布に→ ✘ノイズに対する頑健性 • 提案⼿法（BatchEval） ◦ ⼈間評価を模倣して, 基準定義に基づいてサンプルを分析し, 「サンプル間の⽐較」を通じて識別スコアを算出（Batch-wise evaluation paradigm）

論⽂紹介 03 When Benchmarks are Targets: Revealing the Sensitivity of
Large Language Model Leaderboards [Alzahrani+2024] • 課題: LLMリーダーボードは評価基準が微⼩な変更に敏感で信頼性が低い ◦ MCQ（多肢選択問題）では選択肢の順序変更や回答選択⽅式の違いで⼤幅に順位変動 • 本研究の貢献 ◦ 順位変動のさまざまな要因を特定（フォーマット過剰適合, スコアリング問題...etc.） ◦ バイアス軽減のためのハイブリットスコアリングの提案 ◦ 順位に影響を与えない変更カテゴリの特定 High Bias  High Accuracy  Low Bias  Low Accuracy  Medium Bias  Medium Accuracy 

国際会議ACL2024参加報告

国際会議ACL2024参加報告

Masato Mita

More Decks by Masato Mita

Other Decks in Research

Featured

Transcript