etc. - LLM as a judgeのスコアがそんなに下がらなかった(上がった場合もある)ため、期待できそうに 見える - ただし、クエリの種類によって結果に差がある Result 1: LLM as a Judge Dataset LLM-as-a-judge Provenceなし LLM-as-a-judge Provenceあり Dataset A 0.947 0.940 (-0.007) Dataset B 0.584 0.503 (-0.081) Dataset C 0.771 0.829 (+0.058)