Upgrade to Pro — share decks privately, control downloads, hide ads and more …

An Off-Policy Learning Approach for Steering Se...

An Off-Policy Learning Approach for Steering Sentence Generation towards Personalization

RecSys2025採択論文の解説スライド
論文: https://arxiv.org/abs/2504.02646

English version: https://speakerdeck.com/harukakiyohara_/opl-prompt

Avatar for Haruka Kiyohara

Haruka Kiyohara

September 23, 2025
Tweet

More Decks by Haruka Kiyohara

Other Decks in Research

Transcript

  1. Prompt Optimization with Logged Bandit Data (日本語解説スライド) Haruka Kiyohara, Daniel

    Cao, Yuta Saito, Thorsten Joachims September 2025 OPL for prompt-guided language generation 1
  2. 目標:LLMで個別最適化された文章を生成したい アイテム推薦における要約/レビュー/キャッチコピーなどの例 September 2025 OPL for prompt-guided language generation 2

    “WALL-E (2008)” ・“WALL-E” と呼ばれるロボットが宇宙を旅する物語 ・美しい映像と個性的で愛らしいキャラが特徴の映画 ・環境汚染に焦点を当てたサイエンスフィクション ・ひとりぼっちの世界で愛と仲間に出会う心温まる話 ・終末世界における地球と文化活動の再発見 ・明確なセリフのない無音映画の側面 フィクション好きに対して, 遠くない未来、小さなロボット が宇宙に革命を起こす物語。 ロマンス好きに対して, 孤独だった世界で、小さな ロボットが愛を見つける物語。 ユーザーの好みに合わせて 文章生成を最適化したい。
  3. より正確には、データ生成過程は以下のようになる • ユーザー 𝑢, クエリ 𝑞 • 過去データから学習されたユーザー特徴埋め込み / 映画のタイトルなど,

    e.g., Star Wars, Wall-E • プロンプト 𝑎 (とその埋め込み表現 𝑒𝑎 ) • ジャンルなどのキーワード入力, e.g., ロマンス, 楽しい, 怖い • 出力文 𝑠 • 大規模言語モデル(LLM)によって生成された文章, e.g., “.. 宇宙に革命を起こす”, “.. 愛を見つける” • 報酬 𝑟 • クリックや購入などユーザーの反応 September 2025 OPL for prompt-guided language generation 5
  4. 既存のOPL手法をそのまま適用するとどうなるか? 既存手法では、何通りかの方法でプロンプト行動空間の方策勾配を推定。 September 2025 OPL for prompt-guided language generation 8

    回帰ベース [Konda&Tsitsiklis,99] 重みづけベース [Swaminathan&Joachims,16] • 回帰モデルの報酬推定を使う • 回帰が不正確だと勾配推定に偏りを生じる • 分布シフトや部分観測の問題があると、 正確な回帰は難しくなりがち • 分布シフトを重みづけで補正に、不偏性を満たす • 分布シフトが大きいと分散が大きくなりがち • (特に、候補プロンプトが多いと分散が問題に)
  5. 既存のOPL手法をそのまま適用するとどうなるか? 既存手法では、何通りかの方法でプロンプト行動空間の方策勾配を推定。 September 2025 OPL for prompt-guided language generation 9

    問題なのは、それぞれのプロンプト を独立に扱っていること。 重みづけベース [Swaminathan&Joachims,16] • 分布シフトを重みづけで補正に、不偏性を満たす • 分布シフトが大きいと分散が大きくなりがち • (特に、候補プロンプトが多いと分散が問題に)
  6. 既存のOPL手法をそのまま適用するとどうなるか? 既存手法では、何通りかの方法でプロンプト行動空間の方策勾配を推定。 September 2025 OPL for prompt-guided language generation 10

    問題なのは、それぞれのプロンプト を独立に扱っていること。 一方で、多くの言語処理タスクでは 単語や文章の類似性を使っている。. このタスクも類似性を使えないか? 重みづけベース [Swaminathan&Joachims,16] • 分布シフトを重みづけで補正に、不偏性を満たす • 分布シフトが大きいと分散が大きくなりがち • (特に、候補プロンプトが多いと分散が問題に)
  7. 生成された文章間の類似性を利用するには? September 2025 OPL for prompt-guided language generation 11 A.

    文章出力の空間での勾配を 直接計算してしまえば良さそう!
  8. How to leverage similarities among sentences? 文章出力空間上で方策勾配を計算する。 September 2025 OPL

    for prompt-guided language generation 12 (文章出力空間上での真の勾配) 方策勾配を文章 𝒔 の生成確率についてとる しかし、文章の特徴量は高次元という問題が..
  9. 生成された文章間の類似性を利用するには? (カーネルで周辺化された)文章出力空間上で方策勾配を計算する。 September 2025 OPL for prompt-guided language generation 13

    (周辺化された文章出力空間上での真の勾配) 𝜙(𝑠): 文章 𝑠 のカーネル近傍 方策勾配を文章 𝒔 に近い文章が生成される確率に対してとる 確率 確率 周辺化確率 元々の文章生成確率空間 周辺化した文章生成確率空間
  10. 生成された文章間の類似性を利用するには? (カーネルで周辺化された)文章出力空間上で方策勾配を計算する。 なお、 September 2025 OPL for prompt-guided language generation

    14 𝜙(𝑠): 文章 𝑠 のカーネル近傍 (周辺化された文章出力空間上での真の勾配) 方策勾配を文章 𝒔 に近い文章が生成される確率に対してとる
  11. 生成された文章間の類似性を利用するには? (カーネルで周辺化された)文章出力空間上で方策勾配を計算する。 なお、 September 2025 OPL for prompt-guided language generation

    15 (方策 𝜋 のもとでのカーネル近傍 𝜙(𝑠) の期待報酬) (カーネル近傍 𝜙(𝑠) 内の文章の生成確率) 𝜙(𝑠): 文章 𝑠 のカーネル近傍 (周辺化された文章出力空間上での真の勾配) 方策勾配を文章 𝒔 に近い文章が生成される確率に対してとる
  12. 重みづけスコア関数の推定方法 以下の “再サンプリング” 法を使って求められる。 解釈 ① DSOは現在の方策 𝜋𝜃 から(𝑎, 𝑠′)を再サンプルし、擬似的にデータを拡張。

    ② DSOはカーネル重みを使い、非排他的な棄却サンプリングを行う。 ③ DSOは周辺化文章出力空間上でログ方策の偏りを補正する。 September 2025 OPL for prompt-guided language generation 18 ① ② ③ 導出はAppendixを参照
  13. 理論分析; 分布サポートの条件 ① DSOは分布サポートの欠損(偏りのもと)が起こりにくい。 September 2025 OPL for prompt-guided language

    generation 20 (類似文章のサポート) (プロンプトのサポート) 以下の理由で 類似文章のサポートはプロンプトのサポート よりも緩和された条件になっている。
  14. 理論分析; 偏り ② DSOはカーネルの半径が小さい時にバイアスを小さくする。 September 2025 OPL for prompt-guided language

    generation 21 (カーネル近傍内での分布シフトが偏りの原因になっている)
  15. 理論分析; 偏り ② DSOはカーネルの半径が小さい時にバイアスを小さくする。 • • • September 2025 OPL

    for prompt-guided language generation 22 カーネル近傍内の分布シフトにより発生する報酬のずれからくる項 文章出力空間をそのまま扱うのではなく、周辺化することからくる項
  16. 理論分析; 分散 ③ DSOはカーネルの半径が大きいときに分散をより減少する。 • • September 2025 OPL for

    prompt-guided language generation 24 カーネル近傍内での重みづけを回避することによる分散減少 非排他的な棄却サンプリングをすることで擬似的にデータ拡張することによる分散減少
  17. 理論分析; 偏りと分散のトレードオフ ④ はカーネルの半径が偏り-分散のバランスに大きな影響を与える。 September 2025 OPL for prompt-guided language

    generation 25 報酬シフト(偏り)が小さく 重み(分散)が大きい 報酬シフト(偏り)が大きく 重み(分散)が小さい
  18. 理論分析; 偏りと分散のトレードオフ ④ はカーネルの半径が偏り-分散のバランスに大きな影響を与える。 September 2025 OPL for prompt-guided language

    generation 26 どちらにせよ、文章の類似性をしようする分、prompの行動空間で 重点サンプリングを利用するよりより偏り-分散のバランスを達成。
  19. 人工データ実験 評価指標 September 2025 OPL for prompt-guided language generation 27

    最適方策 一様方策 比較手法 • Regression(回帰) [Konda&Tsitsiklis,99] • IS(ナイーブな重みづけ) [Swaminathan&Joachims,16] • DR(回帰と重みづけ) [Dudík+,11] • POTEC(2段階最適化) [Saito+,24] • DSO(提案手法) 大きいほど良い値
  20. 人工データ実験 データ生成過程 • 文章生成分布 • 報酬生成分布 September 2025 OPL for

    prompt-guided language generation 28 滑らかでかつ異なるプロンプトが似た文章になる設定 prompt sentence sentence reward 滑らかでかつ異なる文章が異なる報酬になる設定
  21. 人工データ実験 実験設定 • データ数: {500, 1000, 2000, 4000, 8000} •

    プロンプト数: {10, 50, 100, 500, 1000} • 報酬ノイズ: {0.0, 1.0, 2.0, 3.0} • DSOはカーネル半径が 𝜏 = 𝟏. 𝟎 のガウスカーネルを使用。 September 2025 OPL for prompt-guided language generation 29 value: デフォルト値
  22. 結果 September 2025 OPL for prompt-guided language generation 30 •

    DSOはプロンプト数 (# of actions) と報酬ノイズ (reward noise) が大きい、 より難しい設定で特に効果を発揮することが分かる。 • DSOは他の手法よりもよりデータ効率が良いことが分かる。
  23. 人工データ実験 DSOの構成要素 • カーネルの幅 (bandwidth): {0.5, 1.0, 2.0, 4.0} •

    ログ方策の周辺化分布: {w/ and w/o 関数近似} (w/o はモンテカルロ推定) • 文章間の距離を測る際に、𝝈𝒔 = 𝟏. 𝟎のノイズを加算 September 2025 OPL for prompt-guided language generation 31 value: default value
  24. LLMを使った実験 • MovieLens-10M [Harper&Konstan,15] を基にした実験 • DistilBert [Sanh+,19] ベースの報酬シミュレータ を学習

    (次ページ) • データセットから、ユーザーとクエリ(映画)をサンプル • RelatedWord.io から候補プロンプトを取得 • Mistral-7B [Jiang+,23] をLLMとしてそのまま使用し、文章生成 September 2025 OPL for prompt-guided language generation 33
  25. Movielens-10Mでの報酬シミュレータの学習 元々のデータ 拡張データ • 𝑢: ユーザー • 𝑞: アイテム(映画) 映画の説明文

    • 𝑟: 評価 報酬シミュレータ September 2025 OPL for prompt-guided language generation 34 (Mistral-7Bにより、キーワードプロンプトなしで作成) ユーザー 特徴埋め込み (・) 内積 DistilBert エンコーダ 映画の 説明文 ロス関数: 評価予測における二乗誤差
  26. LLMの出力を個別するための2つの意思決定の側面 • モデルパラメタ (fine-tuning) • 最適化の自由度が高い • かなり大きな計算リソースを必要とする • プロンプト

    • モデル学習のコストが小さい • ユーザーやLLMを持たない会社でも利用可 • 良くも悪くもfine-tuningほど自由度がない September 2025 OPL for prompt-guided language generation 39 • ペアデータ (RLHF, DPO) • 報酬回帰モデルをデータから学習 • 人手のアノテーションにコストがかかる • オンラインデータ (RL) • いつでも生成した文章の報酬が観測できる • 探索的な文章生成をしすぎると、ユーザー 満足に悪影響を与える可能性も • ログデータ(OPL) • データ収集が比較的安全で低コスト • 反実仮想と分布シフトに対応する必要 パラメタ データセット
  27. LLMの出力を個別するための2つの意思決定の側面 September 2025 OPL for prompt-guided language generation 40 •

    ペアデータ (RLHF, DPO) • 報酬回帰モデルをデータから学習 • 人手のアノテーションにコストがかかる • オンラインデータ (RL) • いつでも生成した文章の報酬が観測できる • 探索的な文章生成をしすぎると、ユーザー 満足に悪影響を与える可能性も • ログデータ(OPL) • データ収集が比較的安全で低コスト • 反実仮想と分布シフトに対応する必要 パラメタ データセット 初めての研究! • モデルパラメタ (fine-tuning) • 最適化の自由度が高い • かなり大きな計算リソースを必要とする • プロンプト • モデル学習のコストが小さい • ユーザーやLLMを持たない会社でも利用可 • 良くも悪くもfine-tuningほど自由度がない
  28. なぜ関数近似がDSOの頑健さを増すのか? A. 二乗誤差によって学習をしているから。 September 2025 OPL for prompt-guided language generation

    41 例えば、真の周辺化確率が1e-5の時、それを1e-5と推定するのと1e-4と推定する のでは二乗誤差はそこまで変わらない。 しかし、分散は両者で大きく異なる。 関数近似を使うことで、周辺化確率が小さくなりすぎるのを防ぐことができる。
  29. LLMを使った実験での報酬の分布 September 2025 OPL for prompt-guided language generation 43 (Left)

    元の評価が5の映画を “正例” とし、0-3の映画を “負例” としている。 (Right) プロンプトなしで生成した文章に対して報酬の改善がどれほどあったかを表す。
  30. 既存手法: DR推定量 [Dudík+,11] September 2025 OPL for prompt-guided language generation

    46 DRは回帰結果を制御変数として利用し、分散現象に活かす。 制御変数
  31. 既存手法: POTEC [Saito+,24] POTECはプロンプトのクラスタリングを利用した2段階の方策最適化を行う。 September 2025 OPL for prompt-guided language

    generation 47 (estimating cluster policy gradient) 回帰ベースの貪欲最適化 制御変数として使う クラスタ空間での重みづけ 𝑐: クラスタ (生成された文章の情報を全く使っていない)
  32. 参考文献 (1/2) [Konda&Tsitsiklis,99] Vijay Konda and John Tsitsiklis. Actor-critic algorithms.

    NeurIPS, 1999. [Swaminathan&Joachims,16] Adith Swaminathan and Thorsten Joachims. Batch learning from logged bandit feedback through counterfactual risk minimization. JMLR, 2016. [Dudík+,11] Miroslav Dudík, John Langford, and Lihong Li. Doubly robust policy evaluation and learning. ICML, 2011. [Saito+,24] Yuta Saito, Jihan Yao, and Thorsten Joachims. Potec: Off-policy learning for large action spaces via two-stage policy decomposition. 2024. [Brown+,20] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. NeurIPS, 2020. September 2025 OPL for prompt-guided language generation 51
  33. 参考文献 (2/2) [Jiang+,23] Albert Q Jiang, Alexandre Sablayrolles, Arthur Mensch,

    Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, Lélio Renard Lavaud, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed. Mistral 7b. 2023. [Sanh+,19] Victor Sanh, Lysandre Debut, Julien Chaumond, and Thomas Wolf. Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter. 2019. [Harper&Konstan,15] F Maxwell Harper and Joseph A Konstan. The movielens datasets: History and context. TIIS, 2015. September 2025 OPL for prompt-guided language generation 52