Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Model Alignment as Prospect Theo...

[Journal club] Model Alignment as Prospect Theoretic Optimization

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Model Alignment as Prospect Theoretic Optimization Kawin Ethayarajh1, Winnie Xu2,

    Niklas Muennighoff2, Dan Jurafsky1, Douwe Kiela1 2 1: Stanford University, 2: Contextual AI 慶應義塾大学 杉浦孔明研究室 小槻誠太郎 K. Ethayarajh, W. Xu, N. Muennighoff, D. Jurafsky, and D. Kiela, “Model Alignment as Prospect Theoretic Optimization,” in ICML, 2024. ICML’24 Poster
  2. 人間からのフィードバックに基づく強化学習 (RLHF) で 言語モデルの出力を調整 (InstructGPT [Ouyang+, NeurIPS’ 22]) 人間からのフィードバック: 選好データ

    3 背景・前提 – 人間による選好データへのLLMのアライメント 選好データ: “ある入力A” + “Aに対する複数の出力” + “人間がどちらの出力を好むかという教師情報”
  3. InstructGPT (RLHF) では選好データから報酬モデルを学習し, 言語モデルの学習にはその報酬モデルに基づくPPOを使用していた DPO [Rafailov+, NeurIPS’ 24] は報酬モデルを陽に学習せず, RLHFが解く方策最適化問題の最適解を解析的に導出し,

    言語モデル (方策) を直接最適化 5 背景・前提 – 人間による選好データへのLLMのアライメント 依然として収集コストが高い選好データが必要, 選好データ以外に基づくアライメント手法の議論がほとんどない
  4. 6 関連研究 – 言語モデルの出力を人間の好みに合うように調整 言語モデルの出力を人間の好みに合うように調整する研究が複数 概要 InstructGPT (RLHF) [Ouyang+, NeurIPS’

    22] 人による生成文の比較評価データに基づいた 報酬モデルを作る. そのモデルに基づいて言語 モデルを人の好みに合致するようPPOで学習 Sparrow [Glaese+, ’23] 人による生成文の比較評価データに基づいた 報酬モデルに加え, 生成内容の安全性に関する Ruleモデルを導入 DPO [Rafailov+, NeurIPS’ 24] RLHFとは異なり報酬モデルを陽に学習せず, RLHFが解く方策最適化問題の最適解を解析的に 導出し, 方策 (言語モデル) を直接最適化
  5. step 1: アライメント手法をプロスペクト理論の観点から考察 step 2: Kahneman-Tversky Optimization (KTO) を提案 7

    貢献 – プロスペクト理論に基づくアライメント手法の考察 + KTO プロスペクト理論 [Tversky+, 1992]: 心理学, 行動経済学の巨星 Kahneman, Tverskyによる, 不確実な状況下における意思決定モデル (人間の利得と損失に対する心理的価値) に関する理論 Cf.: 著書 “Thinking, Fast and Slow” はあまりにも有名
  6. プロスペクト理論: 不確実な状況下における意思決定モデルに関する理論 不確実性を伴う状況下での人間の意思決定には3つの認知的な特徴がある 1. 選択肢の評価は中立の参照点に基づいて行われる e.g.: 40℃の水に浸かった後の20℃の水 vs 5℃の水に浸かった後の 20℃の水

    2. 感応度逓減性 e.g.: $100→$200の心理的価値 > $10000→$10100の心理的価値 (どちらも+$100) 3. 損失回避性 損失が同程度の利得よりも強く感じられるバイアス 8 前提 – プロスペクト理論について
  7. 参照点の存在, 大きい利得/損失での減衰, 損失重視の傾向をもとに Human-Aware LOsses (HALOs) を定義 定義 学習対象のモデル および学習前のモデル

    , 正規化係数 , そして報酬 が与えられた際, ある参照点の分布 および, 区間 で単調非減少な価値関数 が存在し, が に対して線形ならば はHALOである. 9 アライメント手法をプロスペクト理論の観点から考察
  8. HALOの枠組みの中で, Kahneman-Tverskyモデルに基づく アライメント手法KTOを導出 定義 11 Kahneman-Tversky Optimization (KTO) 指数による減衰ではなく sigmoidを使用

    Datasetから一様サンプ ルした入力xに対する 出力尤度に基づく参照点 は良し悪しのラベル および 実際には同一バッチ内の他のサンプルから推定
  9. HALOの枠組みの中で, Kahneman-Tverskyモデルに基づく アライメント手法KTOを導出 定義 12 Kahneman-Tversky Optimization (KTO) 指数による減衰ではなく sigmoidを使用

    Datasetから一様サンプ ルした入力xに対する 出力尤度に基づく参照点 は良し悪しのラベル および 実際には同一バッチ内の他のサンプルから推定 収集コストが高い選好データが必要なく, 単に入力と出力のペアに対して 良し悪しのラベルがあれば良い および の比率を調整し, 損失回避性を調整 を良サンプル数, を悪サンプル数として 以下が良い
  10. 選好データに不整合がある: is better than と is better than の両方が存在し, 前者の出現率が高いケース

    上記を仮定したとき ならば DPOによる最適方策 (言語モデル) は (マイノリティ) を生成しやすく, KTOによる最適方策 (言語モデル) は = に調整すれば 厳密に を生成する. 16 理論的分析 – 選好データに不整合がある場合KTOの方が良い すなわちKTOはDPOよりも選好データ中のノイズに頑健.
  11. Strength 提案しているKTOの実験的なパフォーマンスが良い + いくつかの理論的分析 Weakness プロスペクト理論の観点からの考察およびHALOのくだりの 論理が少々強引にみえる + いくつか実験-考察間の論理飛躍 (e.g.:

    Fig. 4) 実験が, (かなり広く定義した) HALOとは特に関係なく, 単に強い既存手法と弱い既存手法を比べているだけに みえるかつ, その差も明確なものにはみえない. = HALOがHALO以外より良いという結論を導けるほどの実験設定, 実験結果にはみえない. HALOが実験的に良い ==> HALOが人間のバイアスを暗黙的に学習しているという論理は飛躍 (? ) このセクションはあくまで仮説とその間接的な実験検証にとどまっていると思う. 独り言 評価内容が報酬に直結しないかつ不確実性が絡む条件が特に存在しない “生成文の評価” に関してプロスペクト理論 (ないしはその損失回避性) を 援用するのは正しくなさそうでは ? という気持ちに (わかっていないかも) 19 おきもち