Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム
Search
eiji kawada
May 14, 2024
Programming
0
220
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム
大規模言語モデル(LLM)のベンチマーク・プラットフォーム Chatbot Arena の解説スライド。レイティングの公式についても解説している。
eiji kawada
May 14, 2024
Tweet
Share
Other Decks in Programming
See All in Programming
SQL Server ベクトル検索
odashinsuke
0
100
バックエンドNode.js × フロントエンドDeno で開発して得られた知見
ayame113
5
1.3k
OUPC2024 Day 1 解説
kowerkoint
0
390
goにおける コネクションプールの仕組み を軽く掘って見た
aronokuyama
0
120
Windows版PHPのビルド手順とPHP 8.4における変更点
matsuo_atsushi
0
360
신입 안드로이드 개발자의 AI 스타트업 생존기 (+ Native C++ Code를 Android에서 사용해보기)
dygames
0
500
requirements with math
moony
0
520
コンテナでLambdaをデプロイするときに知っておきたかったこと
_takahash
0
140
SideKiqでジョブが二重起動した事象を深堀りしました
t_hatachi
0
220
Modern Angular:Renovation for Your Applications @angularDays 2025 Munich
manfredsteyer
PRO
0
120
RailsでCQRS/ESをやってみたきづき
suzukimar
2
1.5k
List とは何か? / PHPerKaigi 2025
meihei3
0
530
Featured
See All Featured
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
28
2k
A Modern Web Designer's Workflow
chriscoyier
693
190k
A designer walks into a library…
pauljervisheath
205
24k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Why Our Code Smells
bkeepers
PRO
336
57k
Measuring & Analyzing Core Web Vitals
bluesmoon
6
320
Building a Modern Day E-commerce SEO Strategy
aleyda
39
7.2k
Testing 201, or: Great Expectations
jmmastey
42
7.4k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
The Cost Of JavaScript in 2023
addyosmani
48
7.6k
Transcript
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム © dotEQ, Ltd.
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム 人間によるペアワイズ比較を用いた投票による LLM の性能を評価 Elo レーティングにより、投票結果のベンチマークスコアを計算 参照:Chatbot Arena:
Benchmarking LLMs in the Wild with Elo Ratings | LMSYS Org © dotEQ, Ltd. 1 1
優れたベンチマークシステムに求められる特性 スケーラビリティ(Scalability) 可能性のあるすべてのモデルペアについて十分なデータを収集することが不可能な 場合、システムは多数のモデルに対してスケールすべきである 増分性(Incrementality) 比較的少ない試行回数で新しいモデルを評価できること 一意の順序(Unique order) システムは、すべてのモデルに対して一意な順序を提供すべきである 2
つのモデルがあった場合、どちらの順位が高いか、あるいは同順位かどうかを知 ることができなければならない © dotEQ, Ltd. 2 2
既存の LLM ベンチマークシステムの問題点 HELM/lm-evaluation-harness など古典的な LLM ベンチマークフレームワーク ペアワイズ比較にもとづいていないため、自由形式の質問の回答評価には 適していない OpenAI
evals プロジェクト 参加モデルすべてのランキングを提供していない 「Vicuna」の、GPT-4 ベースの評価パイプライン スケーラブルで段階的な評価のためのソリューションを提供していない © dotEQ, Ltd. 3 3
ペアワイズ比較に基づいた 優れたベンチマークシステム クラウドソース方式でユーザに匿名ランダム化バトルを提供する スケーラビリティ(Scalability) ユーザは 2 つの匿名モデルを並べてチャットし、どちらが優れているか投票する 増分性(Incrementality) 投票結果をもとに、Elo レーティングを計算し、モデルの順位を決定する
一意の順序(Unique order) レーティングは各バトル後に、線形に更新される スケーラビリティ(Scalability) 、増分性(Incrementality) © dotEQ, Ltd. 4 4
Collection:評価データの収集 Chatbot Arenaにアクセス ユーザは 2 つの匿名モデルを並べてチャットを開始する ユーザは、匿名モデル 2 つから返答をもらった後、チャットを続けるか、より良いと思 うモデルに投票する
投票が送信されると、モデル名が公開される システムはすべてのユーザーとのやりとりを記録する © dotEQ, Ltd. 5 5
Eval:Elo レーティング チェスやスポーツなどの対戦ゲームで広く用いられているレーティングシステム プレイヤー(LLM)の相対的な強さを計算する方法 複数の LLM 間でペアワイズ比較に基づくバトルの投票から計算する 評価は、モデル名が隠されているときの投票のみを使用する Anthropic LLM
の論文も Elo レーティングシステムを採用している © dotEQ, Ltd. 6 6
LLM の相対的な強さを求める公式 :LLM A のレーティング :LLM B のレーティング :LLM A
が勝つ確率 © dotEQ, Ltd. 7 7
公式の解説 1. レーティング差の計算: で、LLM B と LLM A のレーティング差を計算 この差が大きいほど、レーティングの高い
LLM が勝つ確率が高くなる 2. 指数関数の計算: レーティング差を 400 で割り、底 10 の指数として使用する レーティング差が 400 ポイントごとに勝率が約 10 倍変わることを意味する 3. 勝率の計算: 計算された指数関数の値に 1 を加え、その逆数を取る これにより LLM A が勝つ確率 を得る © dotEQ, Ltd. 8 8
公式の例 例えば、LLM A のレーティングが 1600、LLM B のレーティングが 2000 の場合、計算は以 下のようになる:
1. 2. 3. つまり、この場合 LLM A が勝つ確率は約 9.09% となる © dotEQ, Ltd. 9 9
LLM A が勝つ確率 の更新公式 LLM のレーティングは、各バトルの後に線形に更新できる 仮に LLM A のレーティング
が、勝つ確率 点を獲得すると予想されていたが、実際に は 点を獲得した場合のレーティングを更新式は次のようになる: ・ © dotEQ, Ltd. 10 10
公式の重要なポイントのまとめ レーティング差が大きいほど、高いレーティングの LLM の勝率が高くなる 指数関数により、レーティング差が直線的ではなく、指数的に勝率に影響する 勝率の計算は簡単な逆数の操作で得られる レーティングの更新は線形に行われる この式は、ゲームの結果を予測するために非常に有用であり、容易な更新で、LLM の相対的 な強さの差を定量的に評価できる
© dotEQ, Ltd. 11 11
トーナメントにおける各モデルのペアワイズ勝率 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd. 12 12
各モデルの組み合わせ対戦回数 ランキングの全体的な網羅性を高めるために、一様サンプリングを使用 終盤に追加された新しいモデルは一様でない結果となっている 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd.
13 13
モデル強度の信頼区間(via Bootstrapping) 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd. 14
14
他の全モデルに対する平均勝率 (一様サンプリング、同率なしと仮定した場合) 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd. 15
15
参考文献 Chatbot Arena: Benchmarking LLMs in the Wild with Elo
Ratings | LMSYS Org Chatbot Arena - Elo を使用した LLM ベンチマーク| npaka We extend our heartfelt thanks to the authors and researchers whose work has been referenced in this presentation. © dotEQ, Ltd. 16 16