Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム

Chatbot Arena 大規模言語モデル(LLM)のベンチマーク・プラットフォーム

大規模言語モデル(LLM)のベンチマーク・プラットフォーム Chatbot Arena の解説スライド。レイティングの公式についても解説している。

eiji kawada

May 14, 2024
Tweet

Other Decks in Programming

Transcript

  1. 既存の LLM ベンチマークシステムの問題点 HELM/lm-evaluation-harness など古典的な LLM ベンチマークフレームワーク ペアワイズ比較にもとづいていないため、自由形式の質問の回答評価には 適していない OpenAI

    evals プロジェクト 参加モデルすべてのランキングを提供していない 「Vicuna」の、GPT-4 ベースの評価パイプライン スケーラブルで段階的な評価のためのソリューションを提供していない © dotEQ, Ltd. 3 3
  2. 公式の解説 1. レーティング差の計算: で、LLM B と LLM A のレーティング差を計算 この差が大きいほど、レーティングの高い

    LLM が勝つ確率が高くなる 2. 指数関数の計算: レーティング差を 400 で割り、底 10 の指数として使用する レーティング差が 400 ポイントごとに勝率が約 10 倍変わることを意味する 3. 勝率の計算: 計算された指数関数の値に 1 を加え、その逆数を取る これにより LLM A が勝つ確率 を得る © dotEQ, Ltd. 8 8
  3. 公式の例 例えば、LLM A のレーティングが 1600、LLM B のレーティングが 2000 の場合、計算は以 下のようになる:

    1. 2. 3. つまり、この場合 LLM A が勝つ確率は約 9.09% となる © dotEQ, Ltd. 9 9
  4. LLM A が勝つ確率 の更新公式 LLM のレーティングは、各バトルの後に線形に更新できる 仮に LLM A のレーティング

    が、勝つ確率 点を獲得すると予想されていたが、実際に は 点を獲得した場合のレーティングを更新式は次のようになる: ・ © dotEQ, Ltd. 10 10
  5. 参考文献 Chatbot Arena: Benchmarking LLMs in the Wild with Elo

    Ratings | LMSYS Org Chatbot Arena - Elo を使用した LLM ベンチマーク| npaka We extend our heartfelt thanks to the authors and researchers whose work has been referenced in this presentation. © dotEQ, Ltd. 16 16