Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム
Search
eiji kawada
May 14, 2024
Programming
0
210
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム
大規模言語モデル(LLM)のベンチマーク・プラットフォーム Chatbot Arena の解説スライド。レイティングの公式についても解説している。
eiji kawada
May 14, 2024
Tweet
Share
Other Decks in Programming
See All in Programming
Windows版PHPのビルド手順とPHP 8.4における変更点
matsuo_atsushi
0
320
AHC 044 混合整数計画ソルバー解法
kiri8128
0
170
CTFのWebにおける⾼難易度問題について
hamayanhamayan
1
820
新卒から4年間、20年もののWebサービスと 向き合って学んだソフトウェア考古学
oguri
7
5.8k
Denoでフロントエンド開発 2025年春版 / Frontend Development with Deno (Spring 2025)
petamoriken
0
1.2k
体得しよう!RSA暗号の原理と解読
laysakura
3
450
Effective Signals in Angular 19+ Rules and Helpers
manfredsteyer
PRO
0
150
やっと腹落ち「スプリント毎に動くモノをリリースする」〜ゼロから始めるメガバンクグループのアジャイル実践〜
sasakendayo
1
310
AIレビュー導入によるCIツールとの共存と最適化
kamo26sima
1
1.5k
「その気にさせる」エンジニアが 最強のリーダーになる理由
gimupop
3
430
爆速スッキリ! Rspack 移行の成果と道のり - Muddy Web #11
dora1998
0
120
Lambdaの監視、できてますか?Datadogを用いてLambdaを見守ろう
nealle
2
980
Featured
See All Featured
Being A Developer After 40
akosma
89
590k
Building Applications with DynamoDB
mza
93
6.3k
Building Flexible Design Systems
yeseniaperezcruz
328
38k
Rails Girls Zürich Keynote
gr2m
94
13k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
6
600
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
60k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
29
1.1k
Thoughts on Productivity
jonyablonski
69
4.5k
Statistics for Hackers
jakevdp
797
220k
[RailsConf 2023] Rails as a piece of cake
palkan
53
5.4k
The Cost Of JavaScript in 2023
addyosmani
48
7.6k
Typedesign – Prime Four
hannesfritz
41
2.6k
Transcript
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム © dotEQ, Ltd.
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム 人間によるペアワイズ比較を用いた投票による LLM の性能を評価 Elo レーティングにより、投票結果のベンチマークスコアを計算 参照:Chatbot Arena:
Benchmarking LLMs in the Wild with Elo Ratings | LMSYS Org © dotEQ, Ltd. 1 1
優れたベンチマークシステムに求められる特性 スケーラビリティ(Scalability) 可能性のあるすべてのモデルペアについて十分なデータを収集することが不可能な 場合、システムは多数のモデルに対してスケールすべきである 増分性(Incrementality) 比較的少ない試行回数で新しいモデルを評価できること 一意の順序(Unique order) システムは、すべてのモデルに対して一意な順序を提供すべきである 2
つのモデルがあった場合、どちらの順位が高いか、あるいは同順位かどうかを知 ることができなければならない © dotEQ, Ltd. 2 2
既存の LLM ベンチマークシステムの問題点 HELM/lm-evaluation-harness など古典的な LLM ベンチマークフレームワーク ペアワイズ比較にもとづいていないため、自由形式の質問の回答評価には 適していない OpenAI
evals プロジェクト 参加モデルすべてのランキングを提供していない 「Vicuna」の、GPT-4 ベースの評価パイプライン スケーラブルで段階的な評価のためのソリューションを提供していない © dotEQ, Ltd. 3 3
ペアワイズ比較に基づいた 優れたベンチマークシステム クラウドソース方式でユーザに匿名ランダム化バトルを提供する スケーラビリティ(Scalability) ユーザは 2 つの匿名モデルを並べてチャットし、どちらが優れているか投票する 増分性(Incrementality) 投票結果をもとに、Elo レーティングを計算し、モデルの順位を決定する
一意の順序(Unique order) レーティングは各バトル後に、線形に更新される スケーラビリティ(Scalability) 、増分性(Incrementality) © dotEQ, Ltd. 4 4
Collection:評価データの収集 Chatbot Arenaにアクセス ユーザは 2 つの匿名モデルを並べてチャットを開始する ユーザは、匿名モデル 2 つから返答をもらった後、チャットを続けるか、より良いと思 うモデルに投票する
投票が送信されると、モデル名が公開される システムはすべてのユーザーとのやりとりを記録する © dotEQ, Ltd. 5 5
Eval:Elo レーティング チェスやスポーツなどの対戦ゲームで広く用いられているレーティングシステム プレイヤー(LLM)の相対的な強さを計算する方法 複数の LLM 間でペアワイズ比較に基づくバトルの投票から計算する 評価は、モデル名が隠されているときの投票のみを使用する Anthropic LLM
の論文も Elo レーティングシステムを採用している © dotEQ, Ltd. 6 6
LLM の相対的な強さを求める公式 :LLM A のレーティング :LLM B のレーティング :LLM A
が勝つ確率 © dotEQ, Ltd. 7 7
公式の解説 1. レーティング差の計算: で、LLM B と LLM A のレーティング差を計算 この差が大きいほど、レーティングの高い
LLM が勝つ確率が高くなる 2. 指数関数の計算: レーティング差を 400 で割り、底 10 の指数として使用する レーティング差が 400 ポイントごとに勝率が約 10 倍変わることを意味する 3. 勝率の計算: 計算された指数関数の値に 1 を加え、その逆数を取る これにより LLM A が勝つ確率 を得る © dotEQ, Ltd. 8 8
公式の例 例えば、LLM A のレーティングが 1600、LLM B のレーティングが 2000 の場合、計算は以 下のようになる:
1. 2. 3. つまり、この場合 LLM A が勝つ確率は約 9.09% となる © dotEQ, Ltd. 9 9
LLM A が勝つ確率 の更新公式 LLM のレーティングは、各バトルの後に線形に更新できる 仮に LLM A のレーティング
が、勝つ確率 点を獲得すると予想されていたが、実際に は 点を獲得した場合のレーティングを更新式は次のようになる: ・ © dotEQ, Ltd. 10 10
公式の重要なポイントのまとめ レーティング差が大きいほど、高いレーティングの LLM の勝率が高くなる 指数関数により、レーティング差が直線的ではなく、指数的に勝率に影響する 勝率の計算は簡単な逆数の操作で得られる レーティングの更新は線形に行われる この式は、ゲームの結果を予測するために非常に有用であり、容易な更新で、LLM の相対的 な強さの差を定量的に評価できる
© dotEQ, Ltd. 11 11
トーナメントにおける各モデルのペアワイズ勝率 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd. 12 12
各モデルの組み合わせ対戦回数 ランキングの全体的な網羅性を高めるために、一様サンプリングを使用 終盤に追加された新しいモデルは一様でない結果となっている 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd.
13 13
モデル強度の信頼区間(via Bootstrapping) 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd. 14
14
他の全モデルに対する平均勝率 (一様サンプリング、同率なしと仮定した場合) 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd. 15
15
参考文献 Chatbot Arena: Benchmarking LLMs in the Wild with Elo
Ratings | LMSYS Org Chatbot Arena - Elo を使用した LLM ベンチマーク| npaka We extend our heartfelt thanks to the authors and researchers whose work has been referenced in this presentation. © dotEQ, Ltd. 16 16