Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】Large Language Models Sensitivity to The ...

【論文紹介】Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions

社内論文読み会で使用した資料です。

元論文はこちらです。
Pezeshkpour, Pouya, and Estevam Hruschka. 2023. “Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2308.11483.

Avatar for Soichiro Murakami

Soichiro Murakami

December 18, 2023
Tweet

More Decks by Soichiro Murakami

Other Decks in Research

Transcript

  1. Soichiro MURAKAKAMI Large Language Models Sensitivity to The Order of

    Options in Multiple-Choice Questions https://arxiv.org/abs/2308.11483v1
  2. 3 概要 • 背景 ◦ LLMはプロンプトやサンプルの提示順序に対して感度が高い( sensitive) ▪ e.g., プロンプトを少し変えるだけで生成内容が変わる

    • 本研究 ◦ MCQ(Multiple-Choice Question;多肢選択問題)における選択肢の提示順に 対する感度(sensitivity)を調査する • 結果 ◦ 選択肢の提示順によって75%も性能差があった ◦ 位置バイアスを増幅・減衰させる方法を明らかにした ◦ キャリブレーションの手法を有用性を明らかにした
  3. 7 実験設定 • タスク ◦ 多肢選択問題(Multiple-Choice Question) • モデル ◦

    InstructGPT ◦ GPT4 • データセット ◦ 5つのMCQベンチマークデータ ◦ 選定基準: ドメインの多様性, 選択肢の数(3〜5), LLMにとっての難易度
  4. 8 RQ1. 提示順に対する感度の調査 • 目的 ◦ Zero-shot / Few-shot設定における提示順に対する感度を調査する •

    方法 ◦ 感度を定量化するために性能が最も良かった・悪かった順序の 性能差 (Sensitivity gap)を算出した
  5. 16 RQ2. 提示順に対する感度の要因は何か - (1) 予測の不確実性- • 可能性の高い回答候補に類似した選択肢がある時、予測がブレやすい A) overpriced

    B) purchase C) expensive D) park E) buying Most items in retail stores are what even when they are on sale? 可能性の高い 回答候補
  6. 17 RQ2. 提示順に対する感度の要因は何か - (1) 予測の不確実性- • LLMに可能性の高い選択肢が2つ以上あるかを聞いた ◦ 提示順に対して感度が高い事例の

    94%について、モデルがyesと答えた A) overpriced B) purchase C) expensive D) park E) buying Most items in retail stores are what even when they are on sale? 可能性の高い 回答候補
  7. 18 RQ2. 提示順に対する感度の要因は何か - (2) 位置バイアス - • 各事例をより簡易化して、選択肢の提示順が与える影響を調査したい ◦

    提示順以外の他の何らかの要因を切り離すために、選択肢の数を削減 ◦ LLMに選択肢をランキングさせて、可能性が高い選択肢だけ残す ランキングにより、 正解を選べているか ?
  8. 19 RQ2. 提示順に対する感度の要因は何か - (2) 位置バイアス - • 可能性の高い選択肢だけに絞ってみたが、予測性能はあまり変わらない ◦

    提示順に対する感度は位置バイアスが影響していることを示唆 全選択肢を残している場合と比べて、性能 は殆ど変わっていない
  9. 21 提示順における位置バイアスを増幅/軽減させる方法 位置バイアスを軽減させる 位置バイアスを増幅させる [Q] アメリカの首都はどこですか? A: ニューヨーク B: トーキョー

    C: ボストン D: ワシントンD.C. [Q] アメリカの首都はどこですか? A: ニューヨーク B: ワシントンD.C. C: トーキョー D: ボストン Top-2 choicesを先頭と末尾に配置 Top-2 choicesを先頭, 2番目に隣接して配置
  10. 23 提示順における位置バイアスを増幅/軽減させる方法 • 軽減パターンの検証方法 ◦ (1) Top-2 choicesの位置を固定 ◦ (2)

    他の選択肢の位置を並び替えたときの性能を計測 ◦ (3) (2)における最高/最低性能の差を算出 性能差が小さいことを確認( 0.9〜38%)
  11. 24 RQ3. 提示順に対するLLMの頑健性を改善させる方法 • MCQタスクのためのキャリブレーションとして2手法を検証 • (1) Majority vote (Bootstrapping

    Approach) ◦ 選択肢のランダム並び替え & 予測を10回繰り返し、majorityを採用 性能改善に寄与・GPT-4のほうがより安定
  12. 25 RQ3. 提示順に対するLLMの頑健性を改善させる方法 • (2) Multiple Evidence Calibration (MEC) [Wang

    et al. (2023)] ◦ 根拠を説明をしてから予測するようにプロンプトで指示する方法 ◦ 先行研究においてLLMの感度を和らげることを確認 InstructGPTで性能劣化を確認 Majority voteとは異なる傾向
  13. 26 RQ3. 提示順に対するLLMの頑健性を改善させる方法 • (2) Multiple Evidence Calibration (MEC) [Wang

    et al. (2023)] ◦ 【性能劣化の要因】モデルのconfidenceが高くないときに推論根拠を説明させるこ とで(hallucinationが発生し)不確実性を増幅させていた InstructGPTで性能劣化を確認 Majority voteとは異なる傾向
  14. 27 まとめ • Research Question 1. MCQにおいてLLMはどのくらい提示順に対して感度が高いか: 〜75%の性能差 2. 提示順に対する感度にはどのような要因があるか:

    不確実性, 位置バイアス 3. 提示順に対するLLMの頑健性を改善させる方法: Majority vote > MEC • 今後の課題 ◦ より効率的なキャリブレーション手法の開発 ▪ Majority voteは有用だが, 何度も予測する必要があり計算量が大きい ◦ 評価指標の改良 ▪ 感度に頑健な評価ができるようにしたい