Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム
Search
eiji kawada
May 14, 2024
Programming
0
110
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム
大規模言語モデル(LLM)のベンチマーク・プラットフォーム Chatbot Arena の解説スライド。レイティングの公式についても解説している。
eiji kawada
May 14, 2024
Tweet
Share
Other Decks in Programming
See All in Programming
創造的活動から切り拓く新たなキャリア 好きから始めてみる夜勤オペレーターからSREへの転身
yjszk
1
140
なまけものオバケたち -PHP 8.4 に入った新機能の紹介-
tanakahisateru
1
130
Monixと常駐プログラムの勘どころ / Scalaわいわい勉強会 #4
stoneream
0
290
週次リリースを実現するための グローバルアプリ開発
tera_ny
1
110
iOS開発におけるCopilot For XcodeとCode Completion / copilot for xcode
fuyan777
1
110
これが俺の”自分戦略” プロセスを楽しんでいこう! - Developers CAREER Boost 2024
niftycorp
PRO
0
200
【re:Growth 2024】 Aurora DSQL をちゃんと話します!
maroon1st
0
800
EC2からECSへ 念願のコンテナ移行と巨大レガシーPHPアプリケーションの再構築
sumiyae
2
420
testcontainers のススメ
sgash708
1
130
短期間での新規プロダクト開発における「コスパの良い」Goのテスト戦略」 / kamakura.go
n3xem
2
180
快速入門可觀測性
blueswen
0
410
わたしの星のままで一番星になる ~ 出産を機にSIerからEC事業会社に転職した話 ~
kimura_m_29
0
200
Featured
See All Featured
Building Flexible Design Systems
yeseniaperezcruz
327
38k
Side Projects
sachag
452
42k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
Making Projects Easy
brettharned
116
6k
Site-Speed That Sticks
csswizardry
2
190
GitHub's CSS Performance
jonrohan
1031
460k
Testing 201, or: Great Expectations
jmmastey
41
7.1k
We Have a Design System, Now What?
morganepeng
51
7.3k
Facilitating Awesome Meetings
lara
50
6.1k
A designer walks into a library…
pauljervisheath
205
24k
Building Your Own Lightsaber
phodgson
103
6.1k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Transcript
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム © dotEQ, Ltd.
Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム 人間によるペアワイズ比較を用いた投票による LLM の性能を評価 Elo レーティングにより、投票結果のベンチマークスコアを計算 参照:Chatbot Arena:
Benchmarking LLMs in the Wild with Elo Ratings | LMSYS Org © dotEQ, Ltd. 1 1
優れたベンチマークシステムに求められる特性 スケーラビリティ(Scalability) 可能性のあるすべてのモデルペアについて十分なデータを収集することが不可能な 場合、システムは多数のモデルに対してスケールすべきである 増分性(Incrementality) 比較的少ない試行回数で新しいモデルを評価できること 一意の順序(Unique order) システムは、すべてのモデルに対して一意な順序を提供すべきである 2
つのモデルがあった場合、どちらの順位が高いか、あるいは同順位かどうかを知 ることができなければならない © dotEQ, Ltd. 2 2
既存の LLM ベンチマークシステムの問題点 HELM/lm-evaluation-harness など古典的な LLM ベンチマークフレームワーク ペアワイズ比較にもとづいていないため、自由形式の質問の回答評価には 適していない OpenAI
evals プロジェクト 参加モデルすべてのランキングを提供していない 「Vicuna」の、GPT-4 ベースの評価パイプライン スケーラブルで段階的な評価のためのソリューションを提供していない © dotEQ, Ltd. 3 3
ペアワイズ比較に基づいた 優れたベンチマークシステム クラウドソース方式でユーザに匿名ランダム化バトルを提供する スケーラビリティ(Scalability) ユーザは 2 つの匿名モデルを並べてチャットし、どちらが優れているか投票する 増分性(Incrementality) 投票結果をもとに、Elo レーティングを計算し、モデルの順位を決定する
一意の順序(Unique order) レーティングは各バトル後に、線形に更新される スケーラビリティ(Scalability) 、増分性(Incrementality) © dotEQ, Ltd. 4 4
Collection:評価データの収集 Chatbot Arenaにアクセス ユーザは 2 つの匿名モデルを並べてチャットを開始する ユーザは、匿名モデル 2 つから返答をもらった後、チャットを続けるか、より良いと思 うモデルに投票する
投票が送信されると、モデル名が公開される システムはすべてのユーザーとのやりとりを記録する © dotEQ, Ltd. 5 5
Eval:Elo レーティング チェスやスポーツなどの対戦ゲームで広く用いられているレーティングシステム プレイヤー(LLM)の相対的な強さを計算する方法 複数の LLM 間でペアワイズ比較に基づくバトルの投票から計算する 評価は、モデル名が隠されているときの投票のみを使用する Anthropic LLM
の論文も Elo レーティングシステムを採用している © dotEQ, Ltd. 6 6
LLM の相対的な強さを求める公式 :LLM A のレーティング :LLM B のレーティング :LLM A
が勝つ確率 © dotEQ, Ltd. 7 7
公式の解説 1. レーティング差の計算: で、LLM B と LLM A のレーティング差を計算 この差が大きいほど、レーティングの高い
LLM が勝つ確率が高くなる 2. 指数関数の計算: レーティング差を 400 で割り、底 10 の指数として使用する レーティング差が 400 ポイントごとに勝率が約 10 倍変わることを意味する 3. 勝率の計算: 計算された指数関数の値に 1 を加え、その逆数を取る これにより LLM A が勝つ確率 を得る © dotEQ, Ltd. 8 8
公式の例 例えば、LLM A のレーティングが 1600、LLM B のレーティングが 2000 の場合、計算は以 下のようになる:
1. 2. 3. つまり、この場合 LLM A が勝つ確率は約 9.09% となる © dotEQ, Ltd. 9 9
LLM A が勝つ確率 の更新公式 LLM のレーティングは、各バトルの後に線形に更新できる 仮に LLM A のレーティング
が、勝つ確率 点を獲得すると予想されていたが、実際に は 点を獲得した場合のレーティングを更新式は次のようになる: ・ © dotEQ, Ltd. 10 10
公式の重要なポイントのまとめ レーティング差が大きいほど、高いレーティングの LLM の勝率が高くなる 指数関数により、レーティング差が直線的ではなく、指数的に勝率に影響する 勝率の計算は簡単な逆数の操作で得られる レーティングの更新は線形に行われる この式は、ゲームの結果を予測するために非常に有用であり、容易な更新で、LLM の相対的 な強さの差を定量的に評価できる
© dotEQ, Ltd. 11 11
トーナメントにおける各モデルのペアワイズ勝率 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd. 12 12
各モデルの組み合わせ対戦回数 ランキングの全体的な網羅性を高めるために、一様サンプリングを使用 終盤に追加された新しいモデルは一様でない結果となっている 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd.
13 13
モデル強度の信頼区間(via Bootstrapping) 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd. 14
14
他の全モデルに対する平均勝率 (一様サンプリング、同率なしと仮定した場合) 参照:LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd. 15
15
参考文献 Chatbot Arena: Benchmarking LLMs in the Wild with Elo
Ratings | LMSYS Org Chatbot Arena - Elo を使用した LLM ベンチマーク| npaka We extend our heartfelt thanks to the authors and researchers whose work has been referenced in this presentation. © dotEQ, Ltd. 16 16