Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム
Search
eiji kawada
May 14, 2024
Programming
0
330
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム
大規模言語モデル(LLM)のベンチマーク・プラットフォーム Chatbot Arena の解説スライド。レイティングの公式についても解説している。
eiji kawada
May 14, 2024
Tweet
Share
Other Decks in Programming
See All in Programming
アプリの "かわいい" を支えるアニメーションツールRiveについて
uetyo
0
280
1から理解するWeb Push
dora1998
7
2k
より安全で効率的な Go コードへ: Protocol Buffers Opaque API の導入
shwatanap
3
840
OSS開発者という働き方
andpad
5
1.7k
「手軽で便利」に潜む罠。 Popover API を WCAG 2.2の視点で安全に使うには
taitotnk
0
880
楽して成果を出すためのセルフリソース管理
clipnote
0
190
為你自己學 Python - 冷知識篇
eddie
1
360
Testing Trophyは叫ばない
toms74209200
0
900
Platformに“ちょうどいい”責務ってどこ? 関心の熱さにあわせて考える、責務分担のプラクティス
estie
1
230
Android 16 × Jetpack Composeで縦書きテキストエディタを作ろう / Vertical Text Editor with Compose on Android 16
cc4966
2
270
時間軸から考えるTerraformを使う理由と留意点
fufuhu
16
4.8k
Flutter with Dart MCP: All You Need - 박제창 2025 I/O Extended Busan
itsmedreamwalker
0
150
Featured
See All Featured
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
The Invisible Side of Design
smashingmag
301
51k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Rails Girls Zürich Keynote
gr2m
95
14k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
590
Building Flexible Design Systems
yeseniaperezcruz
329
39k
Code Reviewing Like a Champion
maltzj
525
40k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.4k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
34
6k
Facilitating Awesome Meetings
lara
55
6.5k
4 Signs Your Business is Dying
shpigford
184
22k
Designing for humans not robots
tammielis
253
25k
Transcript
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム © dotEQ, Ltd.
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム 人間によるペアワイズ比較を用いた投票による LLM の性能を評価 Elo レーティングにより、投票結果のベンチマークスコアを計算 参照:Chatbot Arena:
Benchmarking LLMs in the Wild with Elo Ratings | LMSYS Org © dotEQ, Ltd. 1 1
優れたベンチマークシステムに求められる特性 スケーラビリティ(Scalability) 可能性のあるすべてのモデルペアについて十分なデータを収集することが不可能な 場合、システムは多数のモデルに対してスケールすべきである 増分性(Incrementality) 比較的少ない試行回数で新しいモデルを評価できること 一意の順序(Unique order) システムは、すべてのモデルに対して一意な順序を提供すべきである 2
つのモデルがあった場合、どちらの順位が高いか、あるいは同順位かどうかを知 ることができなければならない © dotEQ, Ltd. 2 2
既存の LLM ベンチマークシステムの問題点 HELM/lm-evaluation-harness など古典的な LLM ベンチマークフレームワーク ペアワイズ比較にもとづいていないため、自由形式の質問の回答評価には 適していない OpenAI
evals プロジェクト 参加モデルすべてのランキングを提供していない 「Vicuna」の、GPT-4 ベースの評価パイプライン スケーラブルで段階的な評価のためのソリューションを提供していない © dotEQ, Ltd. 3 3
ペアワイズ比較に基づいた 優れたベンチマークシステム クラウドソース方式でユーザに匿名ランダム化バトルを提供する スケーラビリティ(Scalability) ユーザは 2 つの匿名モデルを並べてチャットし、どちらが優れているか投票する 増分性(Incrementality) 投票結果をもとに、Elo レーティングを計算し、モデルの順位を決定する
一意の順序(Unique order) レーティングは各バトル後に、線形に更新される スケーラビリティ(Scalability) 、増分性(Incrementality) © dotEQ, Ltd. 4 4
Collection:評価データの収集 Chatbot Arenaにアクセス ユーザは 2 つの匿名モデルを並べてチャットを開始する ユーザは、匿名モデル 2 つから返答をもらった後、チャットを続けるか、より良いと思 うモデルに投票する
投票が送信されると、モデル名が公開される システムはすべてのユーザーとのやりとりを記録する © dotEQ, Ltd. 5 5
Eval:Elo レーティング チェスやスポーツなどの対戦ゲームで広く用いられているレーティングシステム プレイヤー(LLM)の相対的な強さを計算する方法 複数の LLM 間でペアワイズ比較に基づくバトルの投票から計算する 評価は、モデル名が隠されているときの投票のみを使用する Anthropic LLM
の論文も Elo レーティングシステムを採用している © dotEQ, Ltd. 6 6
LLM の相対的な強さを求める公式 :LLM A のレーティング :LLM B のレーティング :LLM A
が勝つ確率 © dotEQ, Ltd. 7 7
公式の解説 1. レーティング差の計算: で、LLM B と LLM A のレーティング差を計算 この差が大きいほど、レーティングの高い
LLM が勝つ確率が高くなる 2. 指数関数の計算: レーティング差を 400 で割り、底 10 の指数として使用する レーティング差が 400 ポイントごとに勝率が約 10 倍変わることを意味する 3. 勝率の計算: 計算された指数関数の値に 1 を加え、その逆数を取る これにより LLM A が勝つ確率 を得る © dotEQ, Ltd. 8 8
公式の例 例えば、LLM A のレーティングが 1600、LLM B のレーティングが 2000 の場合、計算は以 下のようになる:
1. 2. 3. つまり、この場合 LLM A が勝つ確率は約 9.09% となる © dotEQ, Ltd. 9 9
LLM A が勝つ確率 の更新公式 LLM のレーティングは、各バトルの後に線形に更新できる 仮に LLM A のレーティング
が、勝つ確率 点を獲得すると予想されていたが、実際に は 点を獲得した場合のレーティングを更新式は次のようになる: ・ © dotEQ, Ltd. 10 10
公式の重要なポイントのまとめ レーティング差が大きいほど、高いレーティングの LLM の勝率が高くなる 指数関数により、レーティング差が直線的ではなく、指数的に勝率に影響する 勝率の計算は簡単な逆数の操作で得られる レーティングの更新は線形に行われる この式は、ゲームの結果を予測するために非常に有用であり、容易な更新で、LLM の相対的 な強さの差を定量的に評価できる
© dotEQ, Ltd. 11 11
トーナメントにおける各モデルのペアワイズ勝率 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd. 12 12
各モデルの組み合わせ対戦回数 ランキングの全体的な網羅性を高めるために、一様サンプリングを使用 終盤に追加された新しいモデルは一様でない結果となっている 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd.
13 13
モデル強度の信頼区間(via Bootstrapping) 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd. 14
14
他の全モデルに対する平均勝率 (一様サンプリング、同率なしと仮定した場合) 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd. 15
15
参考文献 Chatbot Arena: Benchmarking LLMs in the Wild with Elo
Ratings | LMSYS Org Chatbot Arena - Elo を使用した LLM ベンチマーク| npaka We extend our heartfelt thanks to the authors and researchers whose work has been referenced in this presentation. © dotEQ, Ltd. 16 16