SNLP2023: Can Large Language Models Be an Alternative to Human Evaluations?

Can Large Language Models Be an Alternative to Human Evaluations?
Cheng-Han Chiang, Hung-yi Lee 読み⼿：佐々⽊翔⼤（CyberAgent）第15回最先端NLP勉強会 2023年 8⽉ 27-28⽇ 1

背景：⼈⼿評価のメリット‧デメリット • メリット • ⾃動で判定できない評価軸で評価できる • e.g., 物語の⾯⽩さ、対話の良さ、など • デメリット
• コストが⾼い • 再現性がない • 同じ評価者を⽤意できない • 同じ評価者であっても、同じ評価を下さない 2

背景：LLMによる⼈⼿評価の代替 • Large Language Model (LLM) = 強⼒な汎⽤能⼒をもつ • プロンプトによる指⽰に応じてタスクをこなす
• Q: LLMで⼈間の評価者を代替できないか？ • ⼈間と同じ/似た評価をできる？ • どんな指⽰で機能する？ 3

LLM Evaluation 1. ⼈間の評価者に与える指⽰⽂と同じものを⼊⼒ 2. 出⼒⽂をparseする 4

LLM Evaluation 1. ⼈間の評価者に与える指⽰⽂と同じものを⼊⼒ 2. 出⼒⽂をparseする 5

LLM Evaluation • 評価時に⼈/LLMに与える指⽰の内容 • Task instruction • おおまかな指⽰ •
注意書き • Sample • 評価対象のテキスト • Question • 具体的な出⼒形式 6

タスク1：物語⽣成 • プロンプトに基づいて物語を⽣成するタスク • プロンプト：物語の設定、内容などを記述 • WritingPrompts データセット[Fan+18]を使⽤ • プロンプトと⼈⼿で書かれた物語のペア集合
• subreddit WritingPrompts から収集 • ⽣成モデル/⼈間の⽣成した物語200件ずつを評価 9

実験設定：物語⽣成の評価軸 • Grammaticality: ”How grammatically correct is the text of
the story fragment?” • Cohesiveness: “How well do the sentences in the story fragment fit together?” • Likability: “How enjoyable do you find the story fragment?” • Relevance: “Now read the PROMPT based on which the story fragment was written. Prompt: [PROMPT]. How relevant is the story fragment to the prompt?” 10

実験設定：評価を⾏う⼈/LLM ⼈⼿評価 • 英語の教師 LLM評価 • T0 • text-curie-001
(curie) • text-davinci-003 (davinci) • ChatGPT 11 InstructGPTモデル davinciの⽅が強い

Evaluator Grammaticality Cohesiveness Likability Relevance Mean IAA Mean IAA Mean
IAA Mean IAA Human-written stories Human 3.76 0.33 4.29 0.32 3.78 0.08 3.35 0.05 T0 2.55 0.16 2.98 0.11 3.18 0.12 2.93 0.02 curie 3.19 0.07 2.82 0.01 2.85 0.11 3.06 0.11 davinci 4.22 0.26 4.54 0.37 3.99 0.49 4.40 0.71 ChatGPT 3.83 3.55 2.44 3.29 GPT-2-generated stories Human 3.56 0.10 3.19 0.14 2.59 -0.21 2.38 -0.03 T0 2.44 0.05 3.02 0.07 3.00 0.16 2.82 0.04 curie 3.23 0.01 2.82 0.02 3.86 0.09 3.01 0.11 davinci 4.07 0.35 4.26 0.42 3.84 0.52 4.02 0.69 ChatGPT 2.98 2.48 1.59 2.02 12 実験結果 (1-1)：評価スコア（1~5）の平均値 • ⼈間の評価 • Human-written ＞ GPT-2-generated と評価 • 各評価軸で⼀貫

IAA Mean IAA Human-written stories Human 3.76 0.33 4.29 0.32 3.78 0.08 3.35 0.05 T0 2.55 0.16 2.98 0.11 3.18 0.12 2.93 0.02 curie 3.19 0.07 2.82 0.01 2.85 0.11 3.06 0.11 davinci 4.22 0.26 4.54 0.37 3.99 0.49 4.40 0.71 ChatGPT 3.83 3.55 2.44 3.29 GPT-2-generated stories Human 3.56 0.10 3.19 0.14 2.59 -0.21 2.38 -0.03 T0 2.44 0.05 3.02 0.07 3.00 0.16 2.82 0.04 curie 3.23 0.01 2.82 0.02 3.86 0.09 3.01 0.11 davinci 4.07 0.35 4.26 0.42 3.84 0.52 4.02 0.69 ChatGPT 2.98 2.48 1.59 2.02 13 実験結果 (1-1)：評価スコア（1~5）の平均値 • T0, curieの評価 • Human-written vs GPT-2-generated に差がない → ⼈間の評価と異なる傾向

IAA Mean IAA Human-written stories Human 3.76 0.33 4.29 0.32 3.78 0.08 3.35 0.05 T0 2.55 0.16 2.98 0.11 3.18 0.12 2.93 0.02 curie 3.19 0.07 2.82 0.01 2.85 0.11 3.06 0.11 davinci 4.22 0.26 4.54 0.37 3.99 0.49 4.40 0.71 ChatGPT 3.83 3.55 2.44 3.29 GPT-2-generated stories Human 3.56 0.10 3.19 0.14 2.59 -0.21 2.38 -0.03 T0 2.44 0.05 3.02 0.07 3.00 0.16 2.82 0.04 curie 3.23 0.01 2.82 0.02 3.86 0.09 3.01 0.11 davinci 4.07 0.35 4.26 0.42 3.84 0.52 4.02 0.69 ChatGPT 2.98 2.48 1.59 2.02 14 実験結果 (1-1)：評価スコア（1~5）の平均値 • davinci, ChatGPTの評価 • Human-written ＞ GPT-2-generated と評価 → ⼈間の評価と同様の傾向

IAA Mean IAA Human-written stories Human 3.76 0.33 4.29 0.32 3.78 0.08 3.35 0.05 T0 2.55 0.16 2.98 0.11 3.18 0.12 2.93 0.02 curie 3.19 0.07 2.82 0.01 2.85 0.11 3.06 0.11 davinci 4.22 0.26 4.54 0.37 3.99 0.49 4.40 0.71 ChatGPT 3.83 3.55 2.44 3.29 GPT-2-generated stories Human 3.56 0.10 3.19 0.14 2.59 -0.21 2.38 -0.03 T0 2.44 0.05 3.02 0.07 3.00 0.16 2.82 0.04 curie 3.23 0.01 2.82 0.02 3.86 0.09 3.01 0.11 davinci 4.07 0.35 4.26 0.42 3.84 0.52 4.02 0.69 ChatGPT 2.98 2.48 1.59 2.02 15 実験結果 (1-1)：評価スコア（1~5）の平均値 • davinci > ChatGPT という傾向 • 同じLLMを⼀貫して利⽤すれば問題ない

実験結果 (1-2)：インスタンスごとの評価スコアの相関 16 Human written GPT-2 generated Grammaticality 0.14 0.12
Cohesiveness 0.18 0.14 Likability 0.19 0.22 Relevance 0.38 0.43 ∗ 𝜏 の値と相関の強さ [Botsch+11] [0, 0.1): very weak correlation [0.1, 0.2): weak correlation [0.2, 0.3): moderate correlation [0.3, 1.0): strong correlation • text-davinci-003と⼈間の評価のインスタンスごとの相関(Kendall’s 𝜏)を測る • 結果 • 弱〜強相関 • Grammaticalityが最も弱い相関 • 評価軸がはっきりしてない • Relevanceが最も強い相関

実験結果 (1-3)：Instructionを変更 17 Setup Grammaticality Cohesiveness Likability Relevance Human GPT-2
Human GPT-2 Human GPT-2 Human GPT-2 (1) Original 4.22 4.07 4.54 4.26 3.99 3.84 4.40 4.02 (2) + persona 4.29 4.01 4.60 4.27 4.05 3.87 4.55 4.24 (3) + explain 4.24 4.05 4.61 4.32 4.15 3.98 4.35 4.03 • + persona • “(You are a human worker hired to rate the story fragment.)”という⽂を追加 • ペルソナを与えると異なる⽂を出⼒する [Zeng+22] • + explain • “Please also explain your decision.”という⽂を追加 • 説明をお願いすると評価が変化するか？ • Zero-shot chain-of-thought [Kojima+22] に着想を得た • text-davinci-003 が評価を⾏う • Human-written ＞ GPT-2-generated という評価傾向は変わらず＞＞＞＞＞＞＞＞＞＞＞＞

実験結果 (1-4)：LLMのパラメータ𝑇を変化させる 18 Setup Grammaticality Cohesiveness Likability Relevance Human GPT-2
Human GPT-2 Human GPT-2 Human GPT-2 (1) T = 1.0 4.22 4.07 4.54 4.26 3.99 3.84 4.40 4.02 (2) T = 0.7 4.18 4.06 4.52 4.23 3.96 3.82 4.36 3.95 (3) T = 0.3 4.13 3.99 4.48 4.14 3.95 3.82 4.34 3.93 (4) T = 0 4.07 3.99 4.49 4.09 3.95 3.82 4.32 3.92 •text-davinci-003 が評価を⾏う • Human-written ＞ GPT-2-generated という評価傾向は変わらず → LLMは物語⽣成の評価に使えそう＞＞＞＞＞＞＞＞＞＞＞＞＞＞＞＞

議論 • 評価の再現性 • ⼈⼿評価は再現性が低い • 同じ評価者を集めるのが困難 • LLM評価は再現性が⾼い •
LLMはモデルを揃えられる • ただしLLMが更新される可能性もある (e.g., ChatGPT) • 他の評価サンプルの影響 • ⼈⼿評価：前に評価したサンプルの影響を受ける • ratingの相対的な調整を⾏うことも • LLM評価:：他のサンプルに依存せず評価できる 19

議論 • 評価コスト（費⽤、時間） • ⼈⼿評価＝⾼い、LLM評価＝低い • 物語200個の評価コスト • 英語の教師を雇う →
US$140 • 当時最⾼性能のInstructGPTモデル → US$5以下 • 有害なコンテンツの評価 • 評価者が有害なコンテンツ（e.g., violent, sexual, hateful, biased material）に晒される危険性 • LLM評価でリスク軽減できる 20

Limitation • LLMは不正確な知識を持つ [Cao+21] • LLMの応答にはバイアスがある • 安全性、無害性 • ポジティブ、楽観的
(upbeat) • 「↑を学習しても依然としてharmful」[Ganguli+22] 21 • Limitationを理解して利⽤していくのが⼤事 • ⼈⼿評価とLLM評価のpros, consを理解して使い分けるべき • システムの開発段階の評価にはLLM評価 • デプロイ前に⼈⼿評価⼈間も同じでは？

SNLP2023: Can Large Language Models Be an Alter...

SNLP2023: Can Large Language Models Be an Alternative to Human Evaluations?

Shota Sasaki

More Decks by Shota Sasaki

Other Decks in Research

Featured

Transcript

Can Large Language Models Be an Alternative to Human Evaluations?

背景：⼈⼿評価のメリット‧デメリット • メリット • ⾃動で判定できない評価軸で評価できる • e.g., 物語の⾯⽩さ、対話の良さ、など • デメリット

背景：LLMによる⼈⼿評価の代替 • Large Language Model (LLM) = 強⼒な汎⽤能⼒をもつ • プロンプトによる指⽰に応じてタスクをこなす

LLM Evaluation 1. ⼈間の評価者に与える指⽰⽂と同じものを⼊⼒ 2. 出⼒⽂をparseする 4

LLM Evaluation 1. ⼈間の評価者に与える指⽰⽂と同じものを⼊⼒ 2. 出⼒⽂をparseする 5

LLM Evaluation • 評価時に⼈/LLMに与える指⽰の内容 • Task instruction • おおまかな指⽰ •

LLM Evaluation • 評価時に⼈/LLMに与える指⽰の内容 • Task instruction • おおまかな指⽰ •

LLM Evaluation • 評価時に⼈/LLMに与える指⽰の内容 • Task instruction • おおまかな指⽰ •

タスク1：物語⽣成 • プロンプトに基づいて物語を⽣成するタスク • プロンプト：物語の設定、内容などを記述 • WritingPrompts データセット[Fan+18]を使⽤ • プロンプトと⼈⼿で書かれた物語のペア集合

実験設定：物語⽣成の評価軸 • Grammaticality: ”How grammatically correct is the text of

実験設定：評価を⾏う⼈/LLM ⼈⼿評価 • 英語の教師 LLM評価 • T0 • text-curie-001

Evaluator Grammaticality Cohesiveness Likability Relevance Mean IAA Mean IAA Mean

Evaluator Grammaticality Cohesiveness Likability Relevance Mean IAA Mean IAA Mean

Evaluator Grammaticality Cohesiveness Likability Relevance Mean IAA Mean IAA Mean

Evaluator Grammaticality Cohesiveness Likability Relevance Mean IAA Mean IAA Mean

実験結果 (1-2)：インスタンスごとの評価スコアの相関 16 Human written GPT-2 generated Grammaticality 0.14 0.12

実験結果 (1-3)：Instructionを変更 17 Setup Grammaticality Cohesiveness Likability Relevance Human GPT-2

実験結果 (1-4)：LLMのパラメータ𝑇を変化させる 18 Setup Grammaticality Cohesiveness Likability Relevance Human GPT-2

議論 • 評価の再現性 • ⼈⼿評価は再現性が低い • 同じ評価者を集めるのが困難 • LLM評価は再現性が⾼い •

議論 • 評価コスト（費⽤、時間） • ⼈⼿評価＝⾼い、LLM評価＝低い • 物語200個の評価コスト • 英語の教師を雇う →

Limitation • LLMは不正確な知識を持つ [Cao+21] • LLMの応答にはバイアスがある • 安全性、無害性 • ポジティブ、楽観的