自己評価バイアス:LLM-as-a-judgeをするときに、自分自身の応答を高く評価する傾向がある 自己評価バイアス (Zheng+ 2023) (この例ではGPT-4やClaudeが自分自身を高く評価する傾向を示している) L Zheng, W-L Chiang, Y Sheng, S Zhuang, Z Wu, et al. 2023. Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. NeurIPS 2023 Datasets and Benchmarks Track. 4
L Hou, A C Stickland, J Petty, R Y Pang, J Dirani, J Michael, S R Bowman. 2024. GPQA: A Graduate-Level Google-Proof Q&A Benchmark. Conference on Language Modeling (COLM). [2] OpenAIが公開しているsimple-evalsとLlama 3.3 70B Instructのリリースノートを基にグラフ化