Offline A/B testing for Recommender Systems

Offline A/B testing for Recommender Systems ͸ͯͳ ాத (alpicola) @
࿦จಡΈձ 11/19 1

Ofﬂine A/B testing for Recommender Systems — CriteoͷWSDM'18ͷ࿦จ — SpotifyͷRecSys'18࿦จͰ΋ݴٴ
2

Ofﬂine A/B testing for Recommender Systems — CriteoͷWSDM'18ͷ࿦จ — SpotifyͷRecSys'18࿦จͰ΋ݴٴ
— ΫοΫύου։࠵ͷಡΈձͰ͢Ͱʹ঺հ͞Ε͍ͯͨ — ͕ɺվΊͯ۷ΓԼ͛ͨ࿩͕Ͱ͖Ε͹ͱࢥ͍·͢ 3

ΦϑϥΠϯABςετ? — ΦϯϥΠϯͰߦ͏ABςετ͸࣌ؒͱ͕͔͔ۚΔ — ΦϑϥΠϯͰͦΕʹ͍ۙධՁ͕ߦ͑Ε͹ΞϧΰϦζ ϜվળͷαΠΫϧΛߴ଎ԽͰ͖Δ — Ͱ΋ਫ਼౓͸? ! 4

ϩάʹجͮ͘ΦϑϥΠϯධՁͷݚڀ — Counterfactual estimationͱ͔off-policy estimationͱ ݺ͹ΕΔ — WSDM'15ͷνϡʔτϦΞϧ — SIGIR'16ͷνϡʔτϦΞϧ
— ධՁ͚ͩͰͳֶ͘शͷ໨తؔ਺ʹ࢖͏͜ͱ΋Ͱ͖Δ — ͜ͷ࿦จͰ͸ධՁͷΈΛѻ͏ 5

࿦จͷߩݙ — ΦϑϥΠϯABςετͰ༻͍Δใुͷਪఆख๏NCISͷ ͋Δछͷ࠷దੑΛࣔ͢ — ͜ͷ஌ݟʹج͍ͮͯNCISͷ֦ுPieceNCISͱ PointNCISΛఏҊ — ΦϯϥΠϯABςετ݁Ռͱͷ૬͕ؔେ͖͘޲্ 6

໰୊ઃఆ — Top-k ϥϯΩϯά — : ϩά — : ίϯςΩετ
— : ΞΫγϣϯ — : ใु 7

໰୊ઃఆ — : ίϯςΩετ͔ΒΞΫγϣϯΛબͿϙϦγʔ — : ݱߦͷϙϦγʔ — : ςετ͍ͨ͠ϙϦγʔ
— : ฏۉॲஔޮՌ — ͜ΕΛਪఆ͍ͨ͠ 8

໰୊ઃఆ — ΦϯϥΠϯABςετ — ͷݩͰͷϩάͱ ͷݩͰͷϩά͕͋Δ — ඪຊฏۉͰ , ͦΕͧΕਪఆ
— ΦϑϥΠϯABςετ — ͷݩͰͷϩά͔Β ΋ਪఆ ! 9

ैདྷख๏ — Importance sampling (IS) — Normalized importance sampling (NIS)
— Doubly robust estimator (DR) — Capped importance sampling (CIS) — Normalized capped importance sampling (NCIS) ౷ܭ΍ϞϯςΧϧϩ๏ͷจ຺Ͱొ৔ 10

Importance sampling (IS) — ! όΠΞε͕ͳ͍ — — " ʹΑΔߴόϦΞϯε
(unbounded) — όϦΞϯε͕େ͖͍ͱ ͱ ΛൺֱͰ͖ͳ͍ 11

Normalized importance sampling (NIS) Λ࢖ͬͯ Λஔ͖׵͑ — ! ҰகਪఆྔʹͳΔ —
— " ґવͱͯ͠όϦΞϯεେ 12

Capped importance sampling (CIS) ॏΈͷ࠷େ஋Λ ʹ (max capping) ॏΈ͕ Ҏ্ͷ߲͸ࣺͯΔ
(zero capping) 13

CISͷόΠΞε 14

CISͷόΠΞε — όΠΞε͸ ͷ࣌ͷ Ͱbound͞ΕΔ — — ͸ใु͕େ͖͍ͱ͜ΖΛऔΕΔΑ͏ʹվળ͍ͨ͠ ͕ͦ͏͢ΔͱόΠΞε͕େ͖͘ͳΔ !
15

CISͷόΠΞε Cappingͷઃఆʹ͍͍τϨʔυΦϑ͕ଘࡏ͠ͳ͍ ! 16

Normalized capped importance sampling (NCIS) NIS, CIS྆ํͷΞΠσΞΛ࣋ͪࠐΉ 17

NCISͱCISͷؔ܎ 18

NCISͱCISͷؔ܎ CIS͕͍࣋ͬͯͨόΠΞε Λୈೋ߲ͰϞσϧ ͍ͯ͠ΔͱݟͳͤΔ 19

NCISͱCISͷؔ܎ (ಛʹzero cappingͷ࣌) 20

NCISͱCISͷؔ܎ (ಛʹzero cappingͷ࣌) — ͳΒ઴ۙతʹόΠΞ ε͕ͳ͘ͳΔ ! — ͷ ,
ʹର͢Δґଘ౓͕খ͍࣌͞ͳͲ 21

NCISͷόΠΞε 22

NCISͷόΠΞε — ͱcappingͷ༗ແʹ૬͕ؔ͋ΔͱόΠΞε͕େ͖͘ ͳΔ ! — ަབྷҼࢠ͸ϢʔβʔͷλΠϓͳͲ͕ߟ͑ΒΕΔ (Table 1) 23

NCISͷόΠΞε 24

࿦จͷΞΠσΞ — ͷϞσϦϯάΛάϩʔόϧ㱺ϩʔΧϧʹ — ίϯςΩετ ʹରͯ͠ہॴతͳNCIS — ͱcappingͷ૬ؔΛݮΒ͢ — Piecewise
NCIS: ෼ׂ͞ΕͨྖҬ͝ͱʹNCIS — Pointwise NCIS: ཁૉ͝ͱʹNCIS 25

Piecewise NCIS (PieceNCIS) ίϯςΩετͷू߹ ͷ෼ׂ Λߟ͑Δ 26

Piecewise NCIS (PieceNCIS) ֤෼ׂʹରͯ͠NCIS 27

෼ׂͷྫ ద౰ͳؔ਺ ΛఆΊͯ ֤ ಺Ͱ ͷ ʹର͢Δґଘ͕খ͘͞ͳΔΑ͏ʹ 28

Pointwise NCIS (PointNCIS) ཁૉ୯ҐͰ෼ׂ͢Δ (i.e. ) ಛఆͷίϯςΩετʹର͢Δαϯϓϧ਺͸͘͝গͳ͍ͷ Ͱૉ๿ʹNCISΛద༻Ͱ͖ͳ͍ 29

Pointwise NCIS (PointNCIS) — ͸ΞΫγϣϯʹ͍ͭͯपลԽ͢Δ ͱਖ਼֬ʹٻΊΒΕΔ — ΞΫγϣϯͷ਺͕ଟ͍ͱܭࢉ͕ߴίετ ! —
ΛαϯϓϦϯάͰٻΊΔ 30

Midzuno-Sen method 1. Λαϯϓϧ 2. Λ ͔Β ͳ΋ͷ͕ಘΒΕΔ·Ͱαϯϓϧ 3. Λ
͔Βαϯϓϧ 4. Λฦ͢ ͜͏ͯ͠ಘΒΕΔ஋Λ ͱॻ͘ 31

Pointwise NCIS (PointNCIS) — ͷ͏ͪ ͕ ͷσʔλ͸ແࢹͰ͖Δ — ใु͕εύʔεͳ࣌ʹޮ཰తʹܭࢉͰ͖Δ !
32

࣮ݧ — ϓϩϓϥΠΤλϦͷσʔληοτ — 39छɺ߹ܭͰ਺ઍԯ݅ͷϩάσʔλ — ΫϦοΫϕʔεͷใु (εύʔε͔ͭ෼ࢄେ) — ର৅͸CIS,
NCIS, PieceNCIS, PointNCIS ( ) — IS, NIS͸όϦΞϯε͕ߴ͗͢ΔͷͰআ֎ 33

ΦϯϥΠϯʗΦϑϥΠϯABςετͷ૬ؔ 34

ద߹཰ͱِӄੑ཰ ʮ ͕ ΑΓΑ͍͔Ͳ͏͔ʯͷ2஋༧ଌͱͯ͠ݟΔ 35

࣮ݧ݁Ռͷ·ͱΊ — CIS͸૬͕ؔෛ — શମతʹ௿Ίͷਪఆ͕ग़͍ͯͨ (Figure 4) — CIS⇒NCISͰେ͖͘վળ —
NCIS⇒PointNCISͰِཅੑ཰͕͞ΒʹԼ͕Δ — ద߹཰͸NCISҎޙͦ͜·ͰΑ͘ͳΒͳ͍ — ࣮ߦ଎౓ʹ͓͍ͯ΋ਫ਼౓ʹ͓͍ͯ΋PointNCIS͕Α͍ 36

Appendix — ͕খ͍͞ͱ ͕ cappingΛ௒͑Δ͜ͱ΋ — Max cappingͰ͸ ʹͳΔΑ͏ͳ ৽͍͠capping
͕ͱΕΔ (Lemma A.3) 37

Offline A/B testing for Recommender Systems

Offline A/B testing for Recommender Systems

More Decks by alpicola

Other Decks in Technology

Featured

Transcript