Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Policy Design for Two-sided Platforms with Part...

Policy Design for Two-sided Platforms with Participation Dynamics(日本語版)

ICML2025採択論文の解説スライド
論文: https://arxiv.org/abs/2502.01792

English version: https://speakerdeck.com/harukakiyohara_/dynamics-two-stage-rec

Avatar for Haruka Kiyohara

Haruka Kiyohara

May 02, 2025
Tweet

More Decks by Haruka Kiyohara

Other Decks in Research

Transcript

  1. Policy Design for Two-sided Platforms with Participation Dynamics (日本語版) Haruka

    Kiyohara1, Fan Yao2, Sarah Dean1 July 2025 Participation Dynamics in Two-sided Platforms @ ICML 1 1 2
  2. “Two-sided platforms” はよく存在する Two-sided platforms において、閲覧者とコンテンツ提供者はどちらも重要。 July 2025 Participation Dynamics

    in Two-sided Platforms @ ICML 3 … … 閲覧者 はコンテンツの推薦を受ける。 コンテンツに 満足/不満 があれば、閲覧者は参加人口を 増加/減少 させる。 提供者 はコンテンツを提供する。 コンテンツが 十分な/不十分な が認知を得ると、提供者は参加人口を 増加/減少 させる。 閲覧者 提供者
  3. “Two-sided platforms” はよく存在する Two-sided platforms において、閲覧者とコンテンツ提供者はどちらも重要。 July 2025 Participation Dynamics

    in Two-sided Platforms @ ICML 4 … … 人口の増減がある際に、長期的な繁栄のためにはどのような推薦をすべき? 動画配信、ニュース、オンライン広告、求人、SNSなど応用例は多数 閲覧者 提供者
  4. このスライドでお伝えすること • Two-sided platforms と “population effects” と呼ばれる人口増減効果のモデル • よくある

    貪欲方策 は本当に十分? ー うまくいかない例の紹介 • ゲーム理論と制御理論 を元にした貪欲方策では不十分な理由の説明 • 提案手法: 長期的効用最大化のための 先読み方策(Look-ahead policy) • 人工データと実データでの実験 July 2025 Participation Dynamics in Two-sided Platforms @ ICML 5
  5. Two-sided platforms のモデリング 提供者(Providers) • 𝐿 個のグループに分割( ) (スポーツや経済などのジャンル分け) •

    グループ人口 : July 2025 Participation Dynamics in Two-sided Platforms @ ICML 6 閲覧者(Viewers) • 𝐾 個のグループに分割( ) (年齢、性別、出身地、好みなど) • グループ人口: プラットフォーム(Platform) • 人口ベクトル:
  6. Two-sided platforms のモデリング 提供者(Providers) • 𝐿 個のグループに分割( ) (スポーツや経済などのジャンル分け) •

    グループ人口 : • 認知量: July 2025 Participation Dynamics in Two-sided Platforms @ ICML 7 閲覧者(Viewers) • 𝐾 個のグループに分割( ) (年齢、性別、出身地、好みなど) • グループ人口: • 満足度: プラットフォーム(Platform) • 人口ベクトル: • 推薦方策: ( は提供者グループ 𝑙 を閲覧者グループ 𝑘 に割り当てる確率) ( は提供者 𝑙 からの利益)
  7. 閲覧者と提供者に関する重要な仮定 (1/2) July 2025 Participation Dynamics in Two-sided Platforms @

    ICML 8 仮定-1(人口参照値 “reference” の存在) それぞれの閲覧者・提供者グループはその満足度や認知度に応じ、固有の人口参照値を持つ。 それらを や とし、 ҧ 𝜆 は単調増加関数であると仮定する。 満足度 / 認知度 人口参照値
  8. 閲覧者と提供者に関する重要な仮定 (1/2) July 2025 Participation Dynamics in Two-sided Platforms @

    ICML 9 仮定-1(人口参照値 “reference” の存在) それぞれの閲覧者・提供者グループはその満足度や認知度に応じ、固有の人口参照値を持つ。 それらを や とし、 ҧ 𝜆 は単調増加関数であると仮定する。 満足度 / 認知度 人口参照値 ゲーム理論では自己中心的に効用最大化を目指す参加者 (utility-seeking selfish agents)により説明できる。 例: グループ 𝑘 に属する参加者 𝑘 の個人効用を考えると 参加コスト 𝑐 を導入して利益は に。 利益を得る者のみが参加すれば、 (単調増加)
  9. 閲覧者と提供者に関する重要な仮定 (2/2) July 2025 Participation Dynamics in Two-sided Platforms @

    ICML 10 仮定-2(コンテンツの品質に関する人口増加効果 “population effects” ) ターゲットとなる提供者グループの人口が増えるほど、閲覧者の得る効用は増加する。 すなわち、 。𝑏 は基本効用、 𝑓 は単調増加関数である。 提供者のグループ人口 品質
  10. 閲覧者と提供者に関する重要な仮定 (2/2) July 2025 Participation Dynamics in Two-sided Platforms @

    ICML 11 仮定-2(コンテンツの品質に関する人口増加効果 “population effects” ) ターゲットとなる提供者グループの人口が増えるほど、閲覧者の得る効用は増加する。 すなわち、 。𝑏 は基本効用、 𝑓 は単調増加関数である。 提供者のグループ人口 品質 例: 2段階推薦方策 最初に我々の方策 𝜋 でグループ単位の割り当てを決め、 別の方策でグループ内のコンテンツの割り当てを決める。 コンテンツ割り当て方策(別方策)の性能がそれなりに 良ければ、人口が増えるほど閲覧者は高品質なコンテンツ を享受できる。動画配信や、求人などでも当てはまる。
  11. 人口推移と “population effects” の関係 プラットフォームにおける以下の人口推移を考える(𝑡 は時刻を表す): • 逐次的な人口推移 – 閲覧者と提供者はそれぞれ

    “reference” に向かい徐々に人口を推移 • 効用関数における “population effects” – 人口の増減は満足度や認知度を通じ影響 July 2025 Participation Dynamics in Two-sided Platforms @ ICML 12 𝜂 ∈ [0, 1] は推移の速さに関するパラメタ
  12. 人口推移と “population effects” の関係 プラットフォームにおける以下の人口推移を考える(𝑡 は時刻を表す): • 逐次的な人口推移 – 閲覧者と提供者はそれぞれ

    “reference” に向かい徐々に人口を推移 • 効用関数における “population effects” – 人口の増減は満足度や認知度を通じ影響 July 2025 Participation Dynamics in Two-sided Platforms @ ICML 13 𝜂 ∈ [0, 1] は推移の速さに関するパラメタ 閲覧者 提供者 閲覧者 提供者 閲覧者 提供者 … (𝑡 − 1) (𝑡) (𝑡 + 1)
  13. “population effects” を考慮した方策設計 July 2025 Participation Dynamics in Two-sided Platforms

    @ ICML 14 定理-1(貪欲方策 “myopic-greedy” の最適性) 即時報酬( )に応じて逐次的に割り当てを決定する貪欲方策の最適が保証されるのは、 “population effects” の関数 (𝑓) が異なるグループ間で 同一かつ線形の場合のみ である。 逆に、非同一の場合や逓減及び上界が存在する場合にはその限りでない。
  14. “population effects” を考慮した方策設計 July 2025 Participation Dynamics in Two-sided Platforms

    @ ICML 15 定理-1(貪欲方策 “myopic-greedy” の最適性) 即時報酬( )に応じて逐次的に割り当てを決定する貪欲方策の最適が保証されるのは、 “population effects” の関数 (𝑓) が異なるグループ間で 同一かつ線形の場合のみ である。 逆に、非同一の場合や逓減及び上界が存在する場合にはその限りでない。 “population effect” 𝑓 に 順位の逆転や打ち止めがあると、
  15. “population effects” を考慮した方策設計 July 2025 Participation Dynamics in Two-sided Platforms

    @ ICML 16 定理-1(貪欲方策 “myopic-greedy” の最適性) 即時報酬( )に応じて逐次的に割り当てを決定する貪欲方策の最適が保証されるのは、 “population effects” の関数 (𝑓) が異なるグループ間で 同一かつ線形の場合のみ である。 逆に、非同一の場合や逓減及び上界が存在する場合にはその限りでない。 “population effect” 𝑓 に 順位の逆転や打ち止めがあると、 貪欲方策 は 一様方策 にすら 劣る場合がある。
  16. 貪欲方策のうまくいかない理由の分析 2つの分析を通じてメカニズムを解明: • 均衡分析(Equilibrium analysis) • リグレット分析(Regret analysis) July 2025

    Participation Dynamics in Two-sided Platforms @ ICML 17 “population effect” 𝑓 に 順位の逆転や打ち止めがあると、 貪欲方策 は 一様方策 にすら 劣る場合がある。
  17. 均衡分析; Equilibrium analysis (1/2) July 2025 Participation Dynamics in Two-sided

    Platforms @ ICML 18 定理-2(ナッシュ均衡 “Nash equlibrium (NE)” の存在) “Two-sided platforms” のダイナミクスには対応するゲーム理論定式が存在し、 ナッシュ均衡 が必ず存在する(均衡は複数の場合もある)。閲覧者と提供者の反応係数 (𝜂) が十分に小さい 時、 ダイナミクスはナッシュ均衡のひとつに必ず収束する。
  18. 具体的に、対応するゲーム理論定式 (内的効用関数)は以下で表される: 上式から、効用関数の勾配上昇法(gradient ascent; GA)を考えると、人口推移式が 得られる。十分に小さい反応係数 𝜂 は勾配上昇法の発散を防いでいれば良い。 均衡分析; Equilibrium

    analysis (1/2) July 2025 Participation Dynamics in Two-sided Platforms @ ICML 19 定理-2(ナッシュ均衡 “Nash equlibrium (NE)” の存在) “Two-sided platforms” のダイナミクスには対応するゲーム理論定式が存在し、 ナッシュ均衡 が必ず存在する(均衡は複数の場合もある)。閲覧者と提供者の反応係数 (𝜂) が十分に小さい 時、 ダイナミクスはナッシュ均衡のひとつに必ず収束する。
  19. 均衡分析; Equilibrium analysis (2/2) July 2025 Participation Dynamics in Two-sided

    Platforms @ ICML 20 定理-3(ナッシュ均衡における安定性 “stability” に関する十分条件*) 人口推移式の一回微分が均衡点( )においてある定数で抑えられると仮定する。つまり 及び である。また である。 が安定であるための条件は、 * 全ての安定的均衡はナッシュ均衡に一致する。 (ナッシュ均衡が満たすべき条件の制御理論的分析)
  20. 均衡分析; Equilibrium analysis (2/2) July 2025 Participation Dynamics in Two-sided

    Platforms @ ICML 21 定理-3(ナッシュ均衡における安定性 “stability” に関する十分条件*) 人口推移式の一回微分が均衡点( )においてある定数で抑えられると仮定する。つまり 及び である。また である。 が安定であるための条件は、 提供者のグループ人口 品質 𝑓, ҧ 𝜆 がそれぞれ凸関数(逓減関数)であるとき、 右辺の条件は人口が少ないほど強い制約になる。 貪欲方策のような特定提供者に認知を集中させる 方策は、右辺を満たすことを可能にしてしまい 閲覧者や提供者の人口の減少を許容してしまう。 貪欲方策 一様方策
  21. 任意の方策の非最適性を議論するため、下記のリグレット “regret” を導入: なお、 • : (長期的な)最適方策 • : を利用した時の時刻

    𝑡 における人口 ( も に対して同様) • : 全体での最適化期間の長さ リグレット分析; Regret analysis July 2025 Participation Dynamics in Two-sided Platforms @ ICML 22
  22. リグレット分析; Regret analysis xxx July 2025 Participation Dynamics in Two-sided

    Platforms @ ICML 23 定理-4(リグレット “regret” の分解) 全体リグレット(total regret)は 2つの項に分解できる: なお、 “dynamics regret” は 人口推移の違い により、 “policy regret” は 方策の即時影響の違い による。 : 𝜆𝑡 において1ステップだけ貪欲な方策
  23. リグレット分析; Regret analysis xxx July 2025 Participation Dynamics in Two-sided

    Platforms @ ICML 24 定理-4(リグレット “regret” の分解) 全体リグレット(total regret)は 2つの項に分解できる: なお、 “dynamics regret” は 人口推移の違い により、 “policy regret” は 方策の即時影響の違い による。 貪欲方策は “policy regret” のみを最適化(最小化)している。 そのため、大きな “dynamics regret” を発生させ、かなり非最適になる可能性がある。
  24. 人工データ実験 • 先読み(look-ahead) + 貪欲(myopic-greedy)の配合 vs. 一様(uniform): • ダイナミクスは 凸関数

    に従う (sigmoid関数の上半分): • (人工データ実験ではダイナミクスは既知のものとして扱う) July 2025 Participation Dynamics in Two-sided Platforms @ ICML 30 (品質ベクトルは多次元)
  25. 人工データ実験 小さい/大きい人口から始めたどちらの場合でも、先読み(look-ahead)は長期的 効用を最大化するが、貪欲(myopic-greedy)は失敗している。 July 2025 Participation Dynamics in Two-sided Platforms

    @ ICML 32 この実験設定では認知を特定の提供者に集中させるのではなくバランス型の 割り当てをすることで、パイを広げ “population effects” を増加させられている。
  26. 実データ実験 • KuaiRec(Gao et al., 2022) を使った半人工実験。 • 協調フィルタリングで学習した埋め込みを元に閲覧者と提供者をグループ化。 •

    “population effect” はアイテム数に応じて最高品質のアイテムを探すモデル: July 2025 Participation Dynamics in Two-sided Platforms @ ICML 33
  27. まとめ • 人口推移 の存在する “two-sided platforms” における方策設計を考えた。 • この場合、貪欲方策は “population

    effects” と呼ばれる人口増加の効用に与える 影響が グループ間で非同一または飽和状態 になると失敗する可能性を示唆。 • 長期的繁栄のためグループ毎の閲覧者の満足度と提供者の認知度を高くする ことが不可欠であり、提案した 先読み方策(look-ahead)はそれを可能に。 • 実験では 先読み方策(look-ahead)が状況に応じて適応的に長期的効用を最大 にできることを確認した。 July 2025 Participation Dynamics in Two-sided Platforms @ ICML 36