Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
バンディット問題の理論とアルゴリズム 第8章 / bandit-8
Search
todesking
December 27, 2019
Technology
130
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
バンディット問題の理論とアルゴリズム 第8章 / bandit-8
todesking
December 27, 2019
More Decks by todesking
See All by todesking
自作言語進捗 2020 Mar / ojaml-2020-mar
todesking
0
450
オンライン広告におけるCTR/CVR推定関係の論文を30本くらい雑に紹介する / rtb-papers-ctr
todesking
3
1.8k
オンライン広告関連の論文を50本くらい雑に紹介する AdKDD編 / adkdd-all
todesking
4
2.5k
バンディット問題の理論とアルゴリズム 第二章 / bandit2
todesking
0
200
自作言語進捗 2019 May / ojaml-2019-may
todesking
0
980
自作言語進捗 2019 Mar
todesking
0
520
ベイズ統計モデリング 10 // Doing Bayesian Data Analysis Chapter 10
todesking
0
130
実行時におけるJVMバイトコード最適化手法
todesking
16
13k
Other Decks in Technology
See All in Technology
アンオフィシャルな、オフィシャルからのお願い
wyamazak_devrel
0
140
Kiroで書いた 設計書 が AI レビューの 採点基準 になる
ezaki
0
130
新しいUbuntu/GNOMEが使いたいからXからWaylandへ移行頑張ってるの巻 2026-06-20
nobutomurata
0
150
Oracle Cloud Infrastructure:2026年6月度サービス・アップデート
oracle4engineer
PRO
0
140
手塩にかけりゃいいってもんじゃない
ming_ayami
0
610
SteampipeとExcel Power QueryでAWS構成定義書の作成を自動化する
jhashimoto
0
160
コミュニティの有益性 ~JAWS Days 2026 での体験を通して~ / The Benefits of a Community ~Through My Experience at JAWS Days 2026~
seike460
PRO
0
190
AI-DLCを “そのまま導入しなかった”話 ~組織に合わせてアジャストした 私たちの実践共有~
hiroramos4
PRO
0
230
【セミナー資料】Claude Code をセキュアに使うための考え方と設定の勘どころ / Claude Code Webinar 20260616
masahirokawahara
2
420
Flow 不死:AI 時代 DevOps 的不變本質
cheng_wei_chen
2
350
攻撃者視点で考えるDetection Engineering
cryptopeg
3
2k
Chainlitで作るお手軽チャットUI
ynt0485
0
280
Featured
See All Featured
A better future with KSS
kneath
240
18k
Abbi's Birthday
coloredviolet
2
8.1k
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
430
The Pragmatic Product Professional
lauravandoore
37
7.3k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
25k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Between Models and Reality
mayunak
4
340
Amusing Abliteration
ianozsvald
1
210
We Have a Design System, Now What?
morganepeng
55
8.2k
Paper Plane (Part 1)
katiecoart
PRO
0
9.1k
Optimising Largest Contentful Paint
csswizardry
37
3.7k
Marketing to machines
jonoalderson
1
5.5k
Transcript
όϯσΟοτͷ ཧͱΞϧΰϦζϜ 8ষ @todesking
࿈ଓόϯσΟοτͱ ϕΠζ࠷దԽ wબࢶ͕࣮ͷϕΫτϧͰ͋ΔΑ͏ͳ߹ͷόϯσΟοτ wऔΕΔߦಈͷू߹ w࣌ࠁ Ͱͷߦಈ wߦಈ
ʹର͢Δใुظ w࠷దͳߦಈ w ͷܗঢ়ະɺ ͷબࢶ࣮࣭తʹແݶͱ͍͏աࠅ ͳঢ়گ ⊂ ℝd t at ∈ a f(a) a* = argmaxa∈ f(a) f(a) a
ࡶԻ wࡶԻͳ͠Ϟσϧ wࡶԻ͋ΓϞσϧ w͜ͷষͰ ͷࡶԻ͕ΔϞσϧΛߟ͑Δ wࡶԻͳ͠Ϟσϧͷ߹ɺ ճͷ୳ࡧͰ࣮֬ʹ ͕Θ͔Δͨ
Ίɺ ͷ߹Λߟ͑Δͷ͕ຊ࣭త wྫ.-ϞσϧͷϋΠύʔύϥϝʔλΛ ɺMFBWFPOFPVU$7 ͷ݁ՌΛ ͱ͢Δɻ wਅ໘ʹ-00$7͢ΔͳΒޡࠩͳ͠Ϟσϧ wҰ෦ͷαϯϓϧ͚ͩͰ$7͢ΔͳΒޡࠩ͋ΓϞσϧ Xt = f(at ) Xt = f(at ) + ϵt , E[ϵt ] = 0 ϵt ∼ (0,σ2) || a* || = ∞ a f(a)
࿈ଓόϯσΟοτʹ͓͚Δ ϦάϨοτ w wใु࠷େͷબࢶΛબͼଓ͚ͨ߹ͱ࣮ࡍͷใुͷࠩ wྦྷੵใु࠷େԽΛతͱ͢Δ w୯७ϦάϨοτ w ࣌ࠁ
ʹ͓͍ͯͬͱใुظ͕ଟ͍ߦಈ w࠷େͷใुͱ࠷ऴతʹબΕͨߦಈͷใुͷࠩ wࡶԻͳ͠Ϟσϧͷ߹ɺ w࠷దࣝผΛతͱ͢Δ regret(T) = T ∑ t=1 (f(a*) − f(at )) Δ(T) = f(a*) − f( ̂ a*(T)) ̂ a*(T) T Δ(T) = f(a*) − max i∈{1,…,T} f(at )
ظؔͷΫϥε w Ϧϓγοπ࿈ଓͳͲ ͠Β͘ग़ͯ͜ͳ͍ͷͰޙ ճ͠
ϕΠζ࠷దԽ wΨεաఔΛԾఆͯ͠࠷దࣝผΛղ͘ w࠷ѱ࣌ͷੑೳʹ͍ͭͯఘΊͯɺʮฏۉతͳʯέʔεʹ ͓͍ͯΑ͍ੑೳΛ༩͑Δํࡦ wใुظ ͕Ψεաఔʹै͏ͱͯ͠ɺϦάϨοτ ୯७ϦάϨοτΛ࠷దԽ͢Δํࡦ wલఏͱͯ͠Ψεաఔ͕ඞཁͳͷͰઌʹઆ໌͠·͢ f(a)
༧උࣝ: Ψεաఔ wࠓ·Ͱͷߦಈ͓Αͼใु Λݩʹɺߦಈ ʹΑͬͯಘΒΕΔ ใुͷظ͕ै͏ ΛٻΊ͍ͨ wΨεաఔΛ͏͜ͱͰ͜ͷ͕ܭࢉՄೳ wҎ߱ͷํࡦ (16$#ɺτϯϓιϯɺظվળྔ
ͷલఏͱͳΔ wࢀߟจݙΨεաఔͱػցֶश ػցֶशϓϩϑΣογϣφϧ γϦʔζ at , Xt a P[f(a) = x|at , Xt ]
Ψεաఔ: త w؍ଌ͞Εͨσʔλ͔Βɺະͷؔ Λਪఆ͍ͨ͠ wೖྗ wݶΒΕͨσʔλ͔Βͷਪఆ݁Ռෆਖ਼֬ wˠ৴པΛ֬Ͱද͍ͨ͠ wؔͦͷͷͰͳ͘ɺͦͷ ΛٻΊΔ
f(x) : ℝd → ℝ X = {x1 , ⋯, xn }, y = {f(x1 ), ⋯, f(xn )} P[f |X, y] https://www.ism.ac.jp/~daichi/lectures/H26-GaussianProcess/gp-lecture2-daichi.pdf ؍ଌσʔλ(ेࣈ)Λݩʹ༧ଌ͞Εͨyͷɻ ظ͕࣮ઢɺ৴པ͕۠ؒ੨͍ྖҬͰࣔ͞Ε͍ͯΔ
Ψεաఔ: ʹ͍ͭͯͷԾఆ f w؍ଌσʔλ͔Β ͷΛٻΊΔʹԿΒ͔ͷԾఆ͕͍Δ wԾఆ جఈؔ ʹΑΔҰൠԽઢܕϞσϧ Ͱ͋Γɺࣄલ
Ͱ͋Δ w͋Δ ʹର͢Δ ͷɺ Λͬͯ ͱॻ͚Δ w͜ͷͱ͖ɺ ଟมྔΨεʹै͍ɺ Ͱ͋Δ wΧʔωϧؔ Λ༻͍Δͱ ͱॻ͚Δ f f ϕ(x) = (ϕ1 (x), …, ϕd (x)) f(x) = wTϕ(x) P(w) = (0, α−1I) X = (x1 , …, xN )T y = ( f(x1 ), …, f(xn ))T Φ = ϕ1 (x1 ) … ϕd (x1 ) ⋮ ⋱ ⋮ ϕ1 (xN ) … ϕd (xN ) y = Φw y y = (0, α−1ΦΦT) k(xn , xm ) = α−1ϕ(xn )Tϕ(xm ) y = (0, k(x1 , x1 ) ⋯ k(x1 , xN ) ⋮ ⋱ ⋮ k(xN , x1 ) ⋯ k(xN , xN ) )
Ψεաఔ: ༧ଌ w ͕؍ଌ͞Ε͍ͯΔঢ়ଶͰɺ ͷΛٻ Ί͍ͨ wؔͷͱԿ͔ҙͷ ʹରͯ͠ɺ ͷಉ࣌ ͕Θ͔Ε
ͷ͕Θ ͔ͬͨ͜ͱʹͳΔ wଟมྔΨεͷ͖݅ʹΑͬͯٻΊΒΕΔ w ͱͯ͠ɺ Ͱ͋Δͱ͖ɺ ʹͳΔ wະͷ ͷΛطͷ Ͱදݱ͢Δ͜ͱ͕Ͱ͖ͨ X = {x1 , ⋯, xn }T, y = {f(x1 ), ⋯, f(xn )}T f X* = {x* 1 , …, x* M }T y* = {f(x* 1 ), ⋯, f(x* M )}T P[y*|X*, X, y] f K(n, m) = k(xn , xm ) k* (n, m) = k(xn , x* m ) k** (n, m) = k(x* n , x* m ) ( y y*) ∼ ( 0, ( K k* kT * k** )) P[y*|X*, X, y] = (kT * K−1y, k** − kT * K−1k*) y* X*, X, y
ϕΠζ࠷దԽ: Χʔωϧ wόϯσΟοτຊʹΔ wΧʔωϧͷબ wਖ਼ఆΧʔωϧؔ ʹରͯ͠ ͱ͢Δͷ͕Ұൠ త w
wεέʔϧύϥϝʔλ ΛͱΔ wΨεΧʔωϧ wΨεΧʔωϧͷҰൠԽͰ͋ΔϚλʔϯΧʔωϧ wઢܗΧʔωϧ Λ༻ͨ͠߹ઢܗόϯσΟοτ ষ ͱಉ g k(a, a′ ) = σ2 0 g(∥a − a′ ∥λ ) ∥a∥λ = d ∑ i=1 ai /λ2 i λ g(z) = exp(−z2/2) k(a, a′ ) = σ2 0 aTa′
࿈ଓόϯσΟοτͷํࡦ: GP-UCB w ͕Ψεաఔʹै͏ͱͨ͠߹ɺࠓ·Ͱͷ݁Ռ͔Βߦಈ ͰಘΒΕΔ ใु ͷฏۉ ͱࢄ ͕ܭࢉՄೳ wϕΠζ৴པ۠ؒͷ্ݶ
ͱͳΔ w ৴པ w֤࣌ࠁͰ Λ࠷େԽ͢Δ ΛબͿํࡦ͕(16$# wϦάϨοτΛ࠷খԽͤ͞Δͷ͕త͕ͩɺ Λେ͖͘औΔͱ୯७Ϧά Ϩοτͷ࠷খԽʹରԠՄೳ w ΨεΧʔωϧ w ࣍ ͷϚλʔϯΧʔωϧ f a f(a) μ(a|Xt ) σ(a|Xt ) ¯ μa (t) = μ(a|Xt ) + αt σ(a|Xt ) αt ̂ μa (t) a αt regret(T) = O ( T(log T)d+2 ) regret(T) = O (T ν + d(d + 1) 2ν + d(d + 1) log T) 1 < ν < ∞
࿈ଓόϯσΟοτͷํࡦ: τϯϓιϯநग़ wΨεաఔΛલఏͱ͍ͯ͠ΔͨΊɺ ͷ͕ಘΒΕΔ wՄೳͳߦಈ ΛࢄԽ͠ɺ༗ݶͷީิ ʹରͯ͠ ͷ ΛαϯϓϦϯά͠ɺ࠷େͱͳΔߦಈΛબͿ wΨεաఔΛͬͨํࡦʹڞ௨͢Δಛͱͯ͠ɺ
࣍ݩߦྻ ʹؔ͢Δܭࢉ͕ඞཁࢼߦ͕ଟ͘ͳΔͱܭࢉྔ͕૿͢ w ͷܭࢉྔφΠʔϒʹͬͯ wۙࣅ͢ΕݮΒͤ͢Δ w3BUFTPG$POWFSHFODFGPS4QBSTF7BSJBUJPOBM (BVTTJBO1SPDFTT3FHSFTTJPO*$.-#FTUQBQFS wઢܗόϯσΟοτʹ͓͍ͯ͜ͷ͕ͳ͍͔ΘΓʹɺແݶ ࣍ݩΛѻ͑ͳ͍ f(a) a′ s f(a ∈ a′ s ) t K−1 O(N3)
࿈ଓόϯσΟοτͷํࡦ: ظվળྔํࡦ wΨεաఔʹ͓͍ͯ୯७ϦάϨοτͷ࠷খԽΛࢦ͢ํࡦ w ճͷߦಈͷதͰҰ൪ྑ͔ͬͨใु w ճͷߦಈޙͷ୯७ϦάϨοτ w࣌ࠁ5ʹ͓͚Δ࠷దߦಈ
wظվળྔ wߦಈ ʹΑͬͯɺࠓ·Ͱ؍ଌ͞Εͨ࠷େ͔ΒͲΕ͚ͩվળ͞ΕΔ͔ ͷظ w ͕࠷େʹͳΔબࢶΛબͿ T ̂ f* T = max{f(aT ), ̂ f* T−1 } T Δ(T) = f(a*) − ̂ f* T ̂ aT = argmaxa∈ E[max{f(a), ̂ f* T−1 }| f(aT−1 )] = argmaxa∈ E[max{f(a) − ̂ f* T−1 ,0}| f(aT−1 )] EI(a| f(at )) = E[max{f(a) − ̂ f* t ,0}| f(at )] a EI(a| f(at ))
ଟ߲ࣜ࣌ؒͰ࣮ߦՄೳͳํࡦ w͚ͩ͜͜Ψεաఔؔͳ͍ͷͰޙճ͠
ڞࢄؔͷύϥϝʔλਪఆ wΨεաఔΛ͏߹ɺڞࢄؔʹͲͷΧʔωϧΛ͏͔ɺϋΠ ύʔύϥϝʔλΛͲ͏͢Δ͔ͱ͍ͬͨબ͕ඞཁ wڞࢄؔΛܾఆ͢ΔͨΊͷύϥϝʔλ εέʔϧύϥϝʔλɺΧʔ ωϧͷछྨɺΧʔωϧͷύϥϝʔλɺ؍ଌϊΠζͷࢄ Λڞࢄύ ϥϝʔλ ͱ͢Δ w࣌ࠁ
Ͱͷ ͷɺ ͷͱͰͷڞࢄؔ Λͬͯ ͱͳΔ θ t θ θ k(θ) L(θ; Xt ) = 1 (2π)ddet(k(θ)(at , at ) + σ2Id ) exp( 1 2 Xt (k(θ)(at , at ) + σ2Id )−1XT t )
ڞࢄؔͷύϥϝʔλਪఆ w࣌ࠁ ʹ͓͚Δߦಈ Λܾఆ͢Δࡍɺ Λ ༻͍Δํࡦ wಛʹ ͕খ͍͞͏ͪɺਅ͔Β͔͚ΕͨྖҬʹਪఆ͕ऩଋ ͢Δ߹͕͋Δ w&*ํࡦͷ߹ɺ
Ͱ࠷ѱ࣌Ͱ୯७ϦάϨοτ͕ʹऩଋ ͠ͳ͍ wແݶʹࢼߦͯ͠ਖ਼͍͕͑͠ಘΒΕͳ͍ʜʜ wڞࢄύϥϝʔλʹؔ͢ΔࣄޙฏۉΛͱΔํࡦ wԿΒ͔ͷείΞؔ Λ࠷େԽ͢Δ Λબͼ͍ͨ߹ wࣄલ ௨ৗҰ༷ Λஔ͖ɺ Λ࠷େ Խ͢Δ ΛબͿ t + 1 at+1 ̂ θt = argmaxθ∈Θ L(θ; Xt ) t t → ∞ uθ (a) a π(θ) Eθ∼π(θ|Xt ) [uθ (a; Xt )] a
ଟ߲ࣜ࣌ؒͰ࣮ߦՄೳͳํࡦ: ׂۭؒʹجͮ͘SOOํࡦ wΨεաఔͰͳ͍ͭ w؍ଌؔʹର͢Δଟ߲ࣜ࣌ؒͰ࣮ݱՄೳ͔ͭ୯७Ϧά Ϩοτͷऩଋ͕อূՄೳͳํࡦ w͜͜ͰΑ͏͘Β͔͞ͷ੍͕ग़ͯ͘Δ w ࠷ద ɺ͋Δ
ͱͯ͢ͷ ʹ͓͍ ͯɺ Λຬͨ͢ a* c, a > 0 a ∈ f(a*) − f(a) ≤ c∥a* − a∥α
SOOํࡦ wՄೳͳߦಈͷۭؒΛׂ͠ɺͦΕͧΕͷྖҬͷதΛߦ ಈͱͯ͠બ wಘͨใुΛݩʹɺΑͦ͞͏ͳ෦ۭؒͷީิΛબ͠ɺ ࠶ؼతʹׂ͍ͯ͘͠ wͳΜͰ͏·͍͘͘ͷ͔ཧղͯ͠ͳ͍ʜʜݩؾ͕͋ͬͨΒ ޱ಄ͰΓ·͠ΐ͏