Upgrade to Pro — share decks privately, control downloads, hide ads and more …

WSDM2021 paper (Online Experimentation with Sur...

Avatar for Toshihiro NAKAE Toshihiro NAKAE
April 24, 2021
260

WSDM2021 paper (Online Experimentation with Surrogate Metrics)

Avatar for Toshihiro NAKAE

Toshihiro NAKAE

April 24, 2021
Tweet

Transcript

  1. Copyright © BizReach, Inc. All Rights Reserved. Online Experimentation with

    Surrogate Metrics: Guidelines and a Case Study (WSDM2021) 紹介 中江 俊博 (株式会社ビズリーチ) 2021/04/24 @ SIGIR 東京支部 IR Reading 2021 春
  2. Copyright © BizReach, Inc. All Rights Reserved. 自己紹介 ▪ 中江

    俊博(なかえ としひろ) • 株式会社ビズリーチ CTO室 AIグループ ▪ 経歴 • NTTデータ数理システム – データ分析コンサルタント • トリプル・ダブリュー・ジャパン – 排尿予測モデル実装 • ビズリーチ (現職) – 推薦モデルなどのデータサイエンス 関連の業務を担当 2
  3. Copyright © BizReach, Inc. All Rights Reserved. 対象論文/概要 ▪ 論文

    • Weitao Duan, Shan Ba, Chunzhe Zhang (LinkedIn) Online Experimentation with Surrogate Metrics: Guidelines and a Case Study (WSDM2021) – WSDM2021 Best Paper Award 候補 ▪ 結論の概要 • A/Bテストですぐに結果が得られない場合に、 別の観測値から予測した代理指標 (Surrogate Metrics)を使って A/Bの評価をすると偽陽性 (TypeI Error) が発生することを報告。 – この error の発生を抑制する補正方法を見つけた。 – その補正を具体的に適用した実例を示した。 3
  4. Copyright © BizReach, Inc. All Rights Reserved. モチベーション・概要 ▪ レコメンドなどの新ロジックを

    A/Bテストで効果検証する際、 改善したい効果の観測まで時間がかかることがある。 • LinkedIn などのように、職を探している人の成約数が 増えることを目標とする場合、観測までリードタイムがある。 • A/Bテストの命は、判断の速さ(効果がなければすぐ戻す) – Speed, Quality, and Risk (SQR) ▪ かといって、それよりも前段階の目標をおいても 必ずしも目標としている指標が改善されないことがある。 • レコメンドで検索効率は上がったが、最終的なコンバージョンに 至らなかった、など。 ▪ そのために目標としている真の指標値の「予測値」できれば 指標値を代替できる = 代理指標(surrogate metrics)と呼ばれる。 • この代替指標が A/B テストで改善したかどうかで 新しい施策の有効性を確認する。 4
  5. Copyright © BizReach, Inc. All Rights Reserved. モチベーション・LinkedInの場合 ▪ 最終的な目標は、転職確定

    (Confirmed Hire)  の増加 • 実際の改善ロジックはその手前のステップに対しての場合が多い • ファネルの上部で指標改善しても、最終指標が悪化することも。 ▪ 初期段階で得られる測定値aaaの値から予測したaaaの予測値 を用いて、A/Bテストの効果を見極めたい! 5 測定値 (時間かかる) *論文Figure.2 より転載
  6. Copyright © BizReach, Inc. All Rights Reserved. A/Bテストの通常の手順 6 処置群

    (Treatment) 対照群 (Control) 対象サンプル 2n 人 n 人 n 人 割付はSUTVA条件 を満たす ここから t値: から … (真の) 結果 p値 で検定 ATE
  7. Copyright © BizReach, Inc. All Rights Reserved. 代理指標を使う方法 7 処置群

    (Treatment) 対照群 (Control) 対象サンプル 2n 人 n 人 n 人 … 代理指標 ここから t値: から p値 で検定 ATE 割付はSUTVA条件 を満たす
  8. Copyright © BizReach, Inc. All Rights Reserved. 代理指標を使った場合のATEの分散 ▪ 真の結果

    に対する予測 の誤差 の分散が であるときの ATEのbias, variance ▪ 代理指標を使うと、分散過小見積もり • → t値過大見積もり • → p値過小見積もり • → 偽陽性が発生しやすくなる! ▪ 偽陽性を避けるには 回帰誤差を減らす必要がある ( 値を上げる必要がある) 8
  9. Copyright © BizReach, Inc. All Rights Reserved. 代理指標と真の結果のp値比較 9 予測モデルの

    が減ると、偽陽性となるケースが増える。 代理指標のp値 真の結果を使った場合のp値 *論文Figure.1 より転載
  10. Copyright © BizReach, Inc. All Rights Reserved. 代理指標の分散を減らす作戦 10 ▪

    代替指標としての有効性を確認すること • つまり、真の値が代理指標だけで決まり、代理指標を固定すると、A/Bテス トの割付変数とは無関係であることを満たすこと: • この関係が成り立つかは、次が1に近いかあるかどうかで判定可。 ▪ その上で、ATEの分散に回帰誤差の分散を足し算し、 t値の算出値を補正する(t値は減って、p値は増える)
  11. Copyright © BizReach, Inc. All Rights Reserved. LinkedInの実データによる例・モデル学習 11 ▪

    転職確定(CH) を最大化する A/B テストは時間がかかる。 ▪ 転職応募ごとに、属性フラグや応募数など短期で取れる値から 転職確定率 (PCH) を算出するモデルを立てる (学習データ3ヶ月) • 当てはまりが非常によいので、CHでなくPCHが改善する 施策をA/Bテストで選ぶことを考える。 ・転職確定(CH)の収集は  平均6ヶ月程度かかる。 ・転職確定率(PCH)を使った実験は  数日~2週間程度ですむ。 *論文Figure.3 より転載
  12. Copyright © BizReach, Inc. All Rights Reserved. LinkedInの実データによる例・有効性確認 12 ▪

    試験的に実施したA/Bテストで、真の値が代理指標のみできまり、 テスト割当に影響を受けないことをまず確かめる。 処置群 (Treatment) 対照群 (Control) *論文Figure.4 より転載
  13. Copyright © BizReach, Inc. All Rights Reserved. LinkedInの実データによる例・分散補正 13 を使ってt値を補正する

    補正前 t値 X軸:代替指標 Y軸:真の値 をそれぞれ つかった t値 >1M sample >10k sample >1M sample >10k sample 補正後 t値 *論文Figure.5,7 より転載
  14. Copyright © BizReach, Inc. All Rights Reserved. まとめ 14 ▪

    結果サマリ • A/Bテストですぐに結果が得られない場合に、別の観測値で 予測した代理指標を使って評価するとすぐに結果が得られる。 • ただしこの場合p値過小評価気味で、偽陽性が発生する傾向あり。 • 対策として次を提案 – 代替指標の有効性を評価する方法を提案。 – 代替指標を使ったATEを補正する方法を提案 • LinkedInの具体的なデータによる結果を示した。 ▪ 感想 • 結果を得るのに時間がかかるA/Bテストを代替指標によって 評価を短縮できることが(恥ずかしながら)新たな発見であった。 • 誤差補正の方法がシンプルであり、他の現場にも適用しやすそう。 (IR含め、様々な現場で必要とされているのではなかろうか) • A/Bテストを新しいスキームを現場適用する前に、A/Bテスト 自体を評価する、丁寧かつ真摯な姿勢を見習いたい。