ただし, 本会議と⽐べて発表時間が短く, ランチタイムや最終セッションなど微妙な 時間帯に割り当てられてた • ⾮公開論⽂賞 • テーマセッション「再現性を重視したオープンなNLP」 ◦ Theme: Open science, open data, and open models for reproducible NLP
Standardization and Exploration of Ad Text Generation [Mita+2024] • 興味深かった論⽂の紹介 ◦ Mission: Impossible Language Models [Kallini+2024] ◦ BatchEval: Towards Human-like Text Evaluation [Yuan+2024] ◦ When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards [Alzahrani+2024]
Large Language Model Leaderboards [Alzahrani+2024] • 課題: LLMリーダーボードは評価基準が微⼩な変更に敏感で信頼性が低い ◦ MCQ(多肢選択問題)では選択肢の順序変更や回答選択⽅式の違いで⼤幅に順位変動 • 本研究の貢献 ◦ 順位変動のさまざまな要因を特定(フォーマット過剰適合, スコアリング問題...etc.) ◦ バイアス軽減のためのハイブリットスコアリングの提案 ◦ 順位に影響を与えない変更カテゴリの特定 High Bias High Accuracy Low Bias Low Accuracy Medium Bias Medium Accuracy