Chatbot Arena 大規模言語モデル（LLM）のベンチマーク・プラットフォーム

Chatbot Arena 大規模言語モデル（LLM）のベンチマーク・プラットフォーム © dotEQ, Ltd.

Chatbot Arena 大規模言語モデル（LLM）のベンチマーク・プラットフォーム人間によるペアワイズ比較を用いた投票による LLM の性能を評価 Elo レーティングにより、投票結果のベンチマークスコアを計算参照：Chatbot Arena:
Benchmarking LLMs in the Wild with Elo Ratings | LMSYS Org © dotEQ, Ltd. 1 1

優れたベンチマークシステムに求められる特性スケーラビリティ（Scalability）可能性のあるすべてのモデルペアについて十分なデータを収集することが不可能な場合、システムは多数のモデルに対してスケールすべきである増分性（Incrementality）比較的少ない試行回数で新しいモデルを評価できること一意の順序（Unique order）システムは、すべてのモデルに対して一意な順序を提供すべきである 2
つのモデルがあった場合、どちらの順位が高いか、あるいは同順位かどうかを知ることができなければならない © dotEQ, Ltd. 2 2

既存の LLM ベンチマークシステムの問題点 HELM/lm-evaluation-harness など古典的な LLM ベンチマークフレームワークペアワイズ比較にもとづいていないため、自由形式の質問の回答評価には適していない OpenAI
evals プロジェクト参加モデルすべてのランキングを提供していない「Vicuna」の、GPT-4 ベースの評価パイプラインスケーラブルで段階的な評価のためのソリューションを提供していない © dotEQ, Ltd. 3 3

ペアワイズ比較に基づいた優れたベンチマークシステムクラウドソース方式でユーザに匿名ランダム化バトルを提供するスケーラビリティ（Scalability）ユーザは 2 つの匿名モデルを並べてチャットし、どちらが優れているか投票する増分性（Incrementality）投票結果をもとに、Elo レーティングを計算し、モデルの順位を決定する
一意の順序（Unique order）レーティングは各バトル後に、線形に更新されるスケーラビリティ（Scalability）、増分性（Incrementality） © dotEQ, Ltd. 4 4

Collection：評価データの収集 Chatbot Arenaにアクセスユーザは 2 つの匿名モデルを並べてチャットを開始するユーザは、匿名モデル 2 つから返答をもらった後、チャットを続けるか、より良いと思うモデルに投票する
投票が送信されると、モデル名が公開されるシステムはすべてのユーザーとのやりとりを記録する © dotEQ, Ltd. 5 5

Eval：Elo レーティングチェスやスポーツなどの対戦ゲームで広く用いられているレーティングシステムプレイヤー（LLM）の相対的な強さを計算する方法複数の LLM 間でペアワイズ比較に基づくバトルの投票から計算する評価は、モデル名が隠されているときの投票のみを使用する Anthropic LLM
の論文も Elo レーティングシステムを採用している © dotEQ, Ltd. 6 6

LLM の相対的な強さを求める公式：LLM A のレーティング：LLM B のレーティング：LLM A
が勝つ確率 © dotEQ, Ltd. 7 7

公式の解説 1. レーティング差の計算：で、LLM B と LLM A のレーティング差を計算この差が大きいほど、レーティングの高い
LLM が勝つ確率が高くなる 2. 指数関数の計算：レーティング差を 400 で割り、底 10 の指数として使用するレーティング差が 400 ポイントごとに勝率が約 10 倍変わることを意味する 3. 勝率の計算：計算された指数関数の値に 1 を加え、その逆数を取るこれにより LLM A が勝つ確率を得る © dotEQ, Ltd. 8 8

公式の例例えば、LLM A のレーティングが 1600、LLM B のレーティングが 2000 の場合、計算は以下のようになる：
1. 2. 3. つまり、この場合 LLM A が勝つ確率は約 9.09% となる © dotEQ, Ltd. 9 9

LLM A が勝つ確率の更新公式 LLM のレーティングは、各バトルの後に線形に更新できる仮に LLM A のレーティング
が、勝つ確率点を獲得すると予想されていたが、実際には点を獲得した場合のレーティングを更新式は次のようになる：・ © dotEQ, Ltd. 10 10

公式の重要なポイントのまとめレーティング差が大きいほど、高いレーティングの LLM の勝率が高くなる指数関数により、レーティング差が直線的ではなく、指数的に勝率に影響する勝率の計算は簡単な逆数の操作で得られるレーティングの更新は線形に行われるこの式は、ゲームの結果を予測するために非常に有用であり、容易な更新で、LLM の相対的な強さの差を定量的に評価できる
© dotEQ, Ltd. 11 11

各モデルの組み合わせ対戦回数ランキングの全体的な網羅性を高めるために、一様サンプリングを使用終盤に追加された新しいモデルは一様でない結果となっている参照：LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd.
13 13

参考文献 Chatbot Arena: Benchmarking LLMs in the Wild with Elo
Ratings | LMSYS Org Chatbot Arena - Elo を使用した LLM ベンチマーク｜ npaka We extend our heartfelt thanks to the authors and researchers whose work has been referenced in this presentation. © dotEQ, Ltd. 16 16

Chatbot Arena 大規模言語モデル（LLM）のベンチマーク・プラットフォーム

Chatbot Arena 大規模言語モデル（LLM）のベンチマーク・プラットフォーム

eiji kawada

Other Decks in Programming

Featured

Transcript

Chatbot Arena 大規模言語モデル（LLM）のベンチマーク・プラットフォーム © dotEQ, Ltd.

Chatbot Arena 大規模言語モデル（LLM）のベンチマーク・プラットフォーム人間によるペアワイズ比較を用いた投票による LLM の性能を評価 Elo レーティングにより、投票結果のベンチマークスコアを計算参照：Chatbot Arena:

既存の LLM ベンチマークシステムの問題点 HELM/lm-evaluation-harness など古典的な LLM ベンチマークフレームワークペアワイズ比較にもとづいていないため、自由形式の質問の回答評価には適していない OpenAI

Collection：評価データの収集 Chatbot Arenaにアクセスユーザは 2 つの匿名モデルを並べてチャットを開始するユーザは、匿名モデル 2 つから返答をもらった後、チャットを続けるか、より良いと思うモデルに投票する

LLM の相対的な強さを求める公式：LLM A のレーティング：LLM B のレーティング：LLM A

公式の解説 1. レーティング差の計算：で、LLM B と LLM A のレーティング差を計算この差が大きいほど、レーティングの高い

公式の例例えば、LLM A のレーティングが 1600、LLM B のレーティングが 2000 の場合、計算は以下のようになる：

LLM A が勝つ確率の更新公式 LLM のレーティングは、各バトルの後に線形に更新できる仮に LLM A のレーティング

トーナメントにおける各モデルのペアワイズ勝率参照：LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd. 12 12

各モデルの組み合わせ対戦回数ランキングの全体的な網羅性を高めるために、一様サンプリングを使用終盤に追加された新しいモデルは一様でない結果となっている参照：LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd.

モデル強度の信頼区間（via Bootstrapping）参照：LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd. 14

他の全モデルに対する平均勝率（一様サンプリング、同率なしと仮定した場合）参照：LMSYS Chatbot Arena Leaderboard © dotEQ, Ltd. 15

参考文献 Chatbot Arena: Benchmarking LLMs in the Wild with Elo