Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム
Search
eiji kawada
May 14, 2024
Programming
420
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム
大規模言語モデル(LLM)のベンチマーク・プラットフォーム Chatbot Arena の解説スライド。レイティングの公式についても解説している。
eiji kawada
May 14, 2024
Other Decks in Programming
See All in Programming
Lemonade + Foundry Toolkit でお手軽アプリ開発
seosoft
1
320
Hunting Vulnerabilities in Symfony with LLMs
vinceamstoutz
0
540
Claspは野良GASの夢をみるか
takter00
0
180
CSC307 Lecture 17
javiergs
PRO
0
320
脅威をエンジニアリングの糧にして――現場編 / Turning Threats into Engineering Fuel — Field Edition
nrslib
0
270
過去最大のMCPアップデート! 2026-07-28 RC版の謎に迫る
licux
6
260
Spring Security 実践 ─ GraphQL APIで実務に役立つ 認証・認可 を学ぶ
wagyu
0
220
例外の正しい扱い方 そのエラー try-catchして大丈夫?
jinwatanabe
0
220
「エンジニアインターン、どうやって取った?」準備のリアルを語るLT会 Progate BAR
akiomatic
0
130
LLM Plugin for Node-REDの利用方法と開発について
404background
0
170
AI時代の仕事技芸論 — ソフトウェア開発で「遊ぶように働く」職人的熟達のすすめ
kuranuki
2
660
代数的データ型って何が嬉しいの? #frontend_phpcon_do
kajitack
8
3.4k
Featured
See All Featured
The SEO identity crisis: Don't let AI make you average
varn
0
490
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1.2k
Producing Creativity
orderedlist
PRO
348
40k
Ruling the World: When Life Gets Gamed
codingconduct
0
250
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
160
A designer walks into a library…
pauljervisheath
211
24k
AI: The stuff that nobody shows you
jnunemaker
PRO
8
710
Game over? The fight for quality and originality in the time of robots
wayneb77
1
200
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
Facilitating Awesome Meetings
lara
57
7k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
10k
Transcript
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム © dotEQ, Ltd.
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム 人間によるペアワイズ比較を用いた投票による LLM の性能を評価 Elo レーティングにより、投票結果のベンチマークスコアを計算 参照:Chatbot Arena:
Benchmarking LLMs in the Wild with Elo Ratings | LMSYS Org © dotEQ, Ltd. 1 1
優れたベンチマークシステムに求められる特性 スケーラビリティ(Scalability) 可能性のあるすべてのモデルペアについて十分なデータを収集することが不可能な 場合、システムは多数のモデルに対してスケールすべきである 増分性(Incrementality) 比較的少ない試行回数で新しいモデルを評価できること 一意の順序(Unique order) システムは、すべてのモデルに対して一意な順序を提供すべきである 2
つのモデルがあった場合、どちらの順位が高いか、あるいは同順位かどうかを知 ることができなければならない © dotEQ, Ltd. 2 2
既存の LLM ベンチマークシステムの問題点 HELM/lm-evaluation-harness など古典的な LLM ベンチマークフレームワーク ペアワイズ比較にもとづいていないため、自由形式の質問の回答評価には 適していない OpenAI
evals プロジェクト 参加モデルすべてのランキングを提供していない 「Vicuna」の、GPT-4 ベースの評価パイプライン スケーラブルで段階的な評価のためのソリューションを提供していない © dotEQ, Ltd. 3 3
ペアワイズ比較に基づいた 優れたベンチマークシステム クラウドソース方式でユーザに匿名ランダム化バトルを提供する スケーラビリティ(Scalability) ユーザは 2 つの匿名モデルを並べてチャットし、どちらが優れているか投票する 増分性(Incrementality) 投票結果をもとに、Elo レーティングを計算し、モデルの順位を決定する
一意の順序(Unique order) レーティングは各バトル後に、線形に更新される スケーラビリティ(Scalability) 、増分性(Incrementality) © dotEQ, Ltd. 4 4
Collection:評価データの収集 Chatbot Arenaにアクセス ユーザは 2 つの匿名モデルを並べてチャットを開始する ユーザは、匿名モデル 2 つから返答をもらった後、チャットを続けるか、より良いと思 うモデルに投票する
投票が送信されると、モデル名が公開される システムはすべてのユーザーとのやりとりを記録する © dotEQ, Ltd. 5 5
Eval:Elo レーティング チェスやスポーツなどの対戦ゲームで広く用いられているレーティングシステム プレイヤー(LLM)の相対的な強さを計算する方法 複数の LLM 間でペアワイズ比較に基づくバトルの投票から計算する 評価は、モデル名が隠されているときの投票のみを使用する Anthropic LLM
の論文も Elo レーティングシステムを採用している © dotEQ, Ltd. 6 6
LLM の相対的な強さを求める公式 :LLM A のレーティング :LLM B のレーティング :LLM A
が勝つ確率 © dotEQ, Ltd. 7 7
公式の解説 1. レーティング差の計算: で、LLM B と LLM A のレーティング差を計算 この差が大きいほど、レーティングの高い
LLM が勝つ確率が高くなる 2. 指数関数の計算: レーティング差を 400 で割り、底 10 の指数として使用する レーティング差が 400 ポイントごとに勝率が約 10 倍変わることを意味する 3. 勝率の計算: 計算された指数関数の値に 1 を加え、その逆数を取る これにより LLM A が勝つ確率 を得る © dotEQ, Ltd. 8 8
公式の例 例えば、LLM A のレーティングが 1600、LLM B のレーティングが 2000 の場合、計算は以 下のようになる:
1. 2. 3. つまり、この場合 LLM A が勝つ確率は約 9.09% となる © dotEQ, Ltd. 9 9
LLM A が勝つ確率 の更新公式 LLM のレーティングは、各バトルの後に線形に更新できる 仮に LLM A のレーティング
が、勝つ確率 点を獲得すると予想されていたが、実際に は 点を獲得した場合のレーティングを更新式は次のようになる: ・ © dotEQ, Ltd. 10 10
公式の重要なポイントのまとめ レーティング差が大きいほど、高いレーティングの LLM の勝率が高くなる 指数関数により、レーティング差が直線的ではなく、指数的に勝率に影響する 勝率の計算は簡単な逆数の操作で得られる レーティングの更新は線形に行われる この式は、ゲームの結果を予測するために非常に有用であり、容易な更新で、LLM の相対的 な強さの差を定量的に評価できる
© dotEQ, Ltd. 11 11
トーナメントにおける各モデルのペアワイズ勝率 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd. 12 12
各モデルの組み合わせ対戦回数 ランキングの全体的な網羅性を高めるために、一様サンプリングを使用 終盤に追加された新しいモデルは一様でない結果となっている 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd.
13 13
モデル強度の信頼区間(via Bootstrapping) 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd. 14
14
他の全モデルに対する平均勝率 (一様サンプリング、同率なしと仮定した場合) 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd. 15
15
参考文献 Chatbot Arena: Benchmarking LLMs in the Wild with Elo
Ratings | LMSYS Org Chatbot Arena - Elo を使用した LLM ベンチマーク| npaka We extend our heartfelt thanks to the authors and researchers whose work has been referenced in this presentation. © dotEQ, Ltd. 16 16