An Off-Policy Learning Approach for Steering Sentence Generation towards Personalization

Prompt Optimization with Logged Bandit Data （日本語解説スライド） Haruka Kiyohara, Daniel
Cao, Yuta Saito, Thorsten Joachims September 2025 OPL for prompt-guided language generation 1

目標：LLMで個別最適化された文章を生成したいアイテム推薦における要約/レビュー/キャッチコピーなどの例 September 2025 OPL for prompt-guided language generation 2
“WALL-E (2008)” ・“WALL-E” と呼ばれるロボットが宇宙を旅する物語・美しい映像と個性的で愛らしいキャラが特徴の映画・環境汚染に焦点を当てたサイエンスフィクション・ひとりぼっちの世界で愛と仲間に出会う心温まる話・終末世界における地球と文化活動の再発見・明確なセリフのない無音映画の側面フィクション好きに対して, 遠くない未来、小さなロボットが宇宙に革命を起こす物語。ロマンス好きに対して, 孤独だった世界で、小さなロボットが愛を見つける物語。ユーザーの好みに合わせて文章生成を最適化したい。

方策をデプロイすると、ログデータが自然と集まる September 2025 OPL for prompt-guided language generation 4 ただし、ユーザーの反応は生成された文章に対してしか分からない。
(examples are generated by ChatGPT-3.5 [Brown+,20])

より正確には、データ生成過程は以下のようになる • ユーザー 𝑢, クエリ 𝑞 • 過去データから学習されたユーザー特徴埋め込み / 映画のタイトルなど,
e.g., Star Wars, Wall-E • プロンプト 𝑎 (とその埋め込み表現 𝑒𝑎 ) • ジャンルなどのキーワード入力, e.g., ロマンス, 楽しい, 怖い • 出力文 𝑠 • 大規模言語モデル（LLM）によって生成された文章, e.g., “.. 宇宙に革命を起こす”, “.. 愛を見つける” • 報酬 𝑟 • クリックや購入などユーザーの反応 September 2025 OPL for prompt-guided language generation 5

期待報酬を最大化するよう方策を最適化したい：これを、手元にあるログデータを使って学習するのが目標。オフ方策評価（OPL）の目標 September 2025 OPL for prompt-guided language generation
6 ただし、分布シフトと報酬の部分観測の課題に対応する必要

既存のOPL手法をそのまま適用するとどうなるか？一般的な手法では、プロンプトの行動空間における方策勾配を求める。 September 2025 OPL for prompt-guided language generation 7
(プロンプト行動空間における真の方策勾配) 𝜃: 方策パラメタ

既存のOPL手法をそのまま適用するとどうなるか？既存手法では、何通りかの方法でプロンプト行動空間の方策勾配を推定。 September 2025 OPL for prompt-guided language generation 8
回帰ベース [Konda&Tsitsiklis,99] 重みづけベース [Swaminathan&Joachims,16] • 回帰モデルの報酬推定を使う • 回帰が不正確だと勾配推定に偏りを生じる • 分布シフトや部分観測の問題があると、正確な回帰は難しくなりがち • 分布シフトを重みづけで補正に、不偏性を満たす • 分布シフトが大きいと分散が大きくなりがち • (特に、候補プロンプトが多いと分散が問題に)

問題なのは、それぞれのプロンプトを独立に扱っていること。重みづけベース [Swaminathan&Joachims,16] • 分布シフトを重みづけで補正に、不偏性を満たす • 分布シフトが大きいと分散が大きくなりがち • (特に、候補プロンプトが多いと分散が問題に)

問題なのは、それぞれのプロンプトを独立に扱っていること。一方で、多くの言語処理タスクでは単語や文章の類似性を使っている。. このタスクも類似性を使えないか？重みづけベース [Swaminathan&Joachims,16] • 分布シフトを重みづけで補正に、不偏性を満たす • 分布シフトが大きいと分散が大きくなりがち • (特に、候補プロンプトが多いと分散が問題に)

生成された文章間の類似性を利用するには？ September 2025 OPL for prompt-guided language generation 11 A.
文章出力の空間での勾配を直接計算してしまえば良さそう！

How to leverage similarities among sentences? 文章出力空間上で方策勾配を計算する。 September 2025 OPL
for prompt-guided language generation 12 (文章出力空間上での真の勾配) 方策勾配を文章 𝒔 の生成確率についてとるしかし、文章の特徴量は高次元という問題が..

生成された文章間の類似性を利用するには？（カーネルで周辺化された）文章出力空間上で方策勾配を計算する。 September 2025 OPL for prompt-guided language generation 13
(周辺化された文章出力空間上での真の勾配) 𝜙(𝑠): 文章 𝑠 のカーネル近傍方策勾配を文章 𝒔 に近い文章が生成される確率に対してとる確率確率周辺化確率元々の文章生成確率空間周辺化した文章生成確率空間

生成された文章間の類似性を利用するには？（カーネルで周辺化された）文章出力空間上で方策勾配を計算する。なお、 September 2025 OPL for prompt-guided language generation
14 𝜙(𝑠): 文章 𝑠 のカーネル近傍 (周辺化された文章出力空間上での真の勾配) 方策勾配を文章 𝒔 に近い文章が生成される確率に対してとる

生成された文章間の類似性を利用するには？（カーネルで周辺化された）文章出力空間上で方策勾配を計算する。なお、 September 2025 OPL for prompt-guided language generation
15 (方策 𝜋 のもとでのカーネル近傍 𝜙(𝑠) の期待報酬) (カーネル近傍 𝜙(𝑠) 内の文章の生成確率) 𝜙(𝑠): 文章 𝑠 のカーネル近傍 (周辺化された文章出力空間上での真の勾配) 方策勾配を文章 𝒔 に近い文章が生成される確率に対してとる

提案手法：Direct Sentence Off-policy gradient (DSO) DSOは（周辺化）文章出力空間上での方策勾配を以下のように推定。実際にどうやって重みやスコア関数を求めれば良いのか？ September 2025 OPL
for prompt-guided language generation 16 (ログデータから推定した方策勾配)

重みづけスコア関数の推定方法以下の “再サンプリング” 法を使って求められる。 September 2025 OPL for prompt-guided language
generation 17 導出はAppendixを参照

重みづけスコア関数の推定方法以下の “再サンプリング” 法を使って求められる。解釈 ① DSOは現在の方策 𝜋𝜃 から(𝑎, 𝑠′)を再サンプルし、擬似的にデータを拡張。
② DSOはカーネル重みを使い、非排他的な棄却サンプリングを行う。 ③ DSOは周辺化文章出力空間上でログ方策の偏りを補正する。 September 2025 OPL for prompt-guided language generation 18 ① ② ③ 導出はAppendixを参照

ではログ方策の周辺化分布はどうやって求める？カーネルで周辺化した文章出力空間において、周辺化分布は以下のように定義。関数近似を使えば、以下のように二乗誤差で学習することが可能。 September 2025 OPL for prompt-guided language generation
19

理論分析; 分布サポートの条件 ① DSOは分布サポートの欠損（偏りのもと）が起こりにくい。 September 2025 OPL for prompt-guided language
generation 20 (類似文章のサポート) (プロンプトのサポート) 以下の理由で類似文章のサポートはプロンプトのサポートよりも緩和された条件になっている。

理論分析; 偏り ② DSOはカーネルの半径が小さい時にバイアスを小さくする。 September 2025 OPL for prompt-guided language
generation 21 （カーネル近傍内での分布シフトが偏りの原因になっている）

理論分析; 偏り ② DSOはカーネルの半径が小さい時にバイアスを小さくする。 • • • September 2025 OPL
for prompt-guided language generation 22 カーネル近傍内の分布シフトにより発生する報酬のずれからくる項文章出力空間をそのまま扱うのではなく、周辺化することからくる項

理論分析; 分散 ③ DSOはカーネルの半径が大きいときに分散をより減少する。 September 2025 OPL for prompt-guided language
generation 23 （周辺化の程度が大きいほど分散は小さくなる）

理論分析; 分散 ③ DSOはカーネルの半径が大きいときに分散をより減少する。 • • September 2025 OPL for
prompt-guided language generation 24 カーネル近傍内での重みづけを回避することによる分散減少非排他的な棄却サンプリングをすることで擬似的にデータ拡張することによる分散減少

理論分析; 偏りと分散のトレードオフ ④ はカーネルの半径が偏り-分散のバランスに大きな影響を与える。 September 2025 OPL for prompt-guided language
generation 25 報酬シフト（偏り）が小さく重み（分散）が大きい報酬シフト（偏り）が大きく重み（分散）が小さい

理論分析; 偏りと分散のトレードオフ ④ はカーネルの半径が偏り-分散のバランスに大きな影響を与える。 September 2025 OPL for prompt-guided language
generation 26 どちらにせよ、文章の類似性をしようする分、prompの行動空間で重点サンプリングを利用するよりより偏り-分散のバランスを達成。

人工データ実験評価指標 September 2025 OPL for prompt-guided language generation 27
最適方策一様方策比較手法 • Regression（回帰） [Konda&Tsitsiklis,99] • IS（ナイーブな重みづけ） [Swaminathan&Joachims,16] • DR（回帰と重みづけ） [Dudík+,11] • POTEC（2段階最適化） [Saito+,24] • DSO（提案手法）大きいほど良い値

人工データ実験データ生成過程 • 文章生成分布 • 報酬生成分布 September 2025 OPL for
prompt-guided language generation 28 滑らかでかつ異なるプロンプトが似た文章になる設定 prompt sentence sentence reward 滑らかでかつ異なる文章が異なる報酬になる設定

人工データ実験実験設定 • データ数: {500, 1000, 2000, 4000, 8000} •
プロンプト数: {10, 50, 100, 500, 1000} • 報酬ノイズ: {0.0, 1.0, 2.0, 3.0} • DSOはカーネル半径が 𝜏 = 𝟏. 𝟎 のガウスカーネルを使用。 September 2025 OPL for prompt-guided language generation 29 value: デフォルト値

結果 September 2025 OPL for prompt-guided language generation 30 •
DSOはプロンプト数 (# of actions) と報酬ノイズ (reward noise) が大きい、より難しい設定で特に効果を発揮することが分かる。 • DSOは他の手法よりもよりデータ効率が良いことが分かる。

人工データ実験 DSOの構成要素 • カーネルの幅 (bandwidth): {0.5, 1.0, 2.0, 4.0} •
ログ方策の周辺化分布: {w/ and w/o 関数近似} (w/o はモンテカルロ推定) • 文章間の距離を測る際に、𝝈𝒔 = 𝟏. 𝟎のノイズを加算 September 2025 OPL for prompt-guided language generation 31 value: default value

• モンテカルロ推定を使った時は、偏り-分散のトレードオフを観測。 • ガウスカーネルと関数近似はカーネル半径に対する頑健さを増す。結果 September 2025 OPL for prompt-guided
language generation 32

LLMを使った実験 • MovieLens-10M [Harper&Konstan,15] を基にした実験 • DistilBert [Sanh+,19] ベースの報酬シミュレータを学習
(次ページ) • データセットから、ユーザーとクエリ（映画）をサンプル • RelatedWord.io から候補プロンプトを取得 • Mistral-7B [Jiang+,23] をLLMとしてそのまま使用し、文章生成 September 2025 OPL for prompt-guided language generation 33

Movielens-10Mでの報酬シミュレータの学習元々のデータ拡張データ • 𝑢: ユーザー • 𝑞: アイテム（映画）映画の説明文
• 𝑟: 評価報酬シミュレータ September 2025 OPL for prompt-guided language generation 34 (Mistral-7Bにより、キーワードプロンプトなしで作成) ユーザー特徴埋め込み (・) 内積 DistilBert エンコーダ映画の説明文ロス関数: 評価予測における二乗誤差

結果 • DSOは他の手法よりも良い性能であることが多い。 • 特に、重みづけを必要とする手法（IS, DR, POTEC）よりも失敗確率が低い。上記の評価値は、プロンプトなしで生成した文章からの報酬の改善をもとに計算。 September 2025
OPL for prompt-guided language generation 35

まとめ • プロンプト最適化による個別文章生成のためのオフ方策評価について研究。 • 多種多様なプロンプトを扱う際の大規模な行動空間に対応するために、カーネルを使って文章間の類似性を活用する方法を提案。 • DSOは分散を2通りの方法で減少： (1) カーネルで周辺化した文章出力空間上で重みづけ
(2) 再サンプリング法により、擬似的にデータを拡張 • 実験では、DSOが偏りを抑えつつ分散を小さくし、高性能であることを確認。 September 2025 OPL for prompt-guided language generation 36

Appendix September 2025 OPL for prompt-guided language generation 38

LLMの出力を個別するための2つの意思決定の側面 • モデルパラメタ (fine-tuning) • 最適化の自由度が高い • かなり大きな計算リソースを必要とする • プロンプト
• モデル学習のコストが小さい • ユーザーやLLMを持たない会社でも利用可 • 良くも悪くもfine-tuningほど自由度がない September 2025 OPL for prompt-guided language generation 39 • ペアデータ (RLHF, DPO) • 報酬回帰モデルをデータから学習 • 人手のアノテーションにコストがかかる • オンラインデータ (RL) • いつでも生成した文章の報酬が観測できる • 探索的な文章生成をしすぎると、ユーザー満足に悪影響を与える可能性も • ログデータ(OPL) • データ収集が比較的安全で低コスト • 反実仮想と分布シフトに対応する必要パラメタデータセット

LLMの出力を個別するための2つの意思決定の側面 September 2025 OPL for prompt-guided language generation 40 •
ペアデータ (RLHF, DPO) • 報酬回帰モデルをデータから学習 • 人手のアノテーションにコストがかかる • オンラインデータ (RL) • いつでも生成した文章の報酬が観測できる • 探索的な文章生成をしすぎると、ユーザー満足に悪影響を与える可能性も • ログデータ(OPL) • データ収集が比較的安全で低コスト • 反実仮想と分布シフトに対応する必要パラメタデータセット初めての研究！ • モデルパラメタ (fine-tuning) • 最適化の自由度が高い • かなり大きな計算リソースを必要とする • プロンプト • モデル学習のコストが小さい • ユーザーやLLMを持たない会社でも利用可 • 良くも悪くもfine-tuningほど自由度がない

なぜ関数近似がDSOの頑健さを増すのか？ A. 二乗誤差によって学習をしているから。 September 2025 OPL for prompt-guided language generation
41 例えば、真の周辺化確率が1e-5の時、それを1e-5と推定するのと1e-4と推定するのでは二乗誤差はそこまで変わらない。しかし、分散は両者で大きく異なる。関数近似を使うことで、周辺化確率が小さくなりすぎるのを防ぐことができる。

LLMを使った実験で実際のプロンプトの効果は？ September 2025 OPL for prompt-guided language generation 42

LLMを使った実験での報酬の分布 September 2025 OPL for prompt-guided language generation 43 (Left)
元の評価が5の映画を “正例” とし、0-3の映画を “負例” としている。 (Right) プロンプトなしで生成した文章に対して報酬の改善がどれほどあったかを表す。

重みづけスコア関数の導出 (1/2) まず、重みの別表現を導出する。 September 2025 OPL for prompt-guided language generation
44

重みづけスコア関数の導出(2/2) 次に、重みづけスコア関数は以下のように求められる。 September 2025 OPL for prompt-guided language generation 45

既存手法: DR推定量 [Dudík+,11] September 2025 OPL for prompt-guided language generation
46 DRは回帰結果を制御変数として利用し、分散現象に活かす。制御変数

既存手法: POTEC [Saito+,24] POTECはプロンプトのクラスタリングを利用した2段階の方策最適化を行う。 September 2025 OPL for prompt-guided language
generation 47 (estimating cluster policy gradient) 回帰ベースの貪欲最適化制御変数として使うクラスタ空間での重みづけ 𝑐: クラスタ（生成された文章の情報を全く使っていない）

DSOに制御変数を導入することは可能か？ DRのような推定量を定義するには、以下の回帰項を加える必要がある。しかし、勾配の推定が新たな重みづけを必要としてしまう。そのため、分散を減少するような形を導出できない。 September 2025 OPL for prompt-guided language
generation 48

DSOに制御変数を導入することは可能か？ DRのような推定量を定義するには、以下の回帰項を加える必要がある。しかし、勾配の推定が新たな重みづけを必要としてしまう。そのため、分散を減少するような形を導出できない。 September 2025 OPL for prompt-guided language
generation 49 どうやったやうまく回帰とDSOを組みあわせられるかを考えるのは重要な future work の一つ。

Reference September 2025 OPL for prompt-guided language generation 50

参考文献 (1/2) [Konda&Tsitsiklis,99] Vijay Konda and John Tsitsiklis. Actor-critic algorithms.
NeurIPS, 1999. [Swaminathan&Joachims,16] Adith Swaminathan and Thorsten Joachims. Batch learning from logged bandit feedback through counterfactual risk minimization. JMLR, 2016. [Dudík+,11] Miroslav Dudík, John Langford, and Lihong Li. Doubly robust policy evaluation and learning. ICML, 2011. [Saito+,24] Yuta Saito, Jihan Yao, and Thorsten Joachims. Potec: Off-policy learning for large action spaces via two-stage policy decomposition. 2024. [Brown+,20] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. NeurIPS, 2020. September 2025 OPL for prompt-guided language generation 51

参考文献 (2/2) [Jiang+,23] Albert Q Jiang, Alexandre Sablayrolles, Arthur Mensch,
Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, Lélio Renard Lavaud, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed. Mistral 7b. 2023. [Sanh+,19] Victor Sanh, Lysandre Debut, Julien Chaumond, and Thomas Wolf. Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter. 2019. [Harper&Konstan,15] F Maxwell Harper and Joseph A Konstan. The movielens datasets: History and context. TIIS, 2015. September 2025 OPL for prompt-guided language generation 52

An Off-Policy Learning Approach for Steering Se...

An Off-Policy Learning Approach for Steering Sentence Generation towards Personalization

More Decks by Haruka Kiyohara

Other Decks in Research

Featured

Transcript