Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
求人サービスのユーザー分析をもとにした予算管理(ロジスティック回帰)
Search
Ikuya Murasato
November 12, 2021
Business
0
290
求人サービスのユーザー分析をもとにした予算管理(ロジスティック回帰)
2021/11/12(金)に開催したExploratory データサイエンス勉強会#21の株式会社リブセンス様のご登壇資料です。
Ikuya Murasato
November 12, 2021
Tweet
Share
More Decks by Ikuya Murasato
See All by Ikuya Murasato
トピックモデル分析を活用した問合せ業務の効率化
ikuyam
1
180
回帰分析の活用による新商品の販売力予測
ikuyam
0
130
生存分析モデルを利用したLineのブロック要因分析
ikuyam
0
82
自動車トラブルと気象条件などの探索的データ分析
ikuyam
0
56
データサイエンス「も」使えるチェンジメーカー輩出への挑戦
ikuyam
0
320
ExploratoryとRによる全学データサイエンス教育
ikuyam
0
440
エンゲージメント向上のための人事制度改革 - 管理部門におけるExploratoryの活用
ikuyam
0
1.4k
「学ぶ」分析技術から「使う」分析技術へ - Exploratoryによるドリル演習
ikuyam
0
320
データサイエンス入門教育の現場から - 46歳新任教員2年間の苦闘
ikuyam
0
420
Other Decks in Business
See All in Business
株式会社CINC 会社案内/Company introduction
cinchr
6
43k
株式会社STANDARD_会社紹介資料
std2017
0
230
ポートフォリオEC「ENRAI」_概要資料
booklista_nakaya
1
910
VANISH STANDARD Company Deck
vstandard
PRO
2
21k
株式会社スピークバディ 会社紹介資料
speakbuddy
1
210k
We are Wunderbar, Culture Deck Min
wunderbar
0
260
Amazon 流のプロダクトマネジメント @ Product DeepLive 会場 + 懇親会スポンサーセッション
icoxfog417
3
380
採用ピッチブック
macloud
3
59k
BrightonSEO 2023 - Focus on SEO won't make you an EEAT
chantalsminknl
0
220
俺とStripe -業務用自動車レンタルサービス BNR-
pharaohkj
2
220
メタバースを活用した東京の魅力発信
tokyo_metropolitan_gov_digital_hr
1
420
ELEMENTS_CULTURE DECK
hrxteam
0
1.9k
Featured
See All Featured
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
92
16k
A Modern Web Designer's Workflow
chriscoyier
692
190k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
26
2.1k
Optimising Largest Contentful Paint
csswizardry
33
2.9k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.6k
We Have a Design System, Now What?
morganepeng
50
7.2k
Speed Design
sergeychernyshev
24
570
Build The Right Thing And Hit Your Dates
maggiecrowley
32
2.4k
The Art of Programming - Codeland 2020
erikaheidi
51
13k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
328
21k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
355
29k
Transcript
© Livecence Inc. 2021 求人サービスの ユーザー分析をもとにした予算管理 (ロジスティック回帰) 2021.11.12 株式会社リブセンス 大坪 誠
© Livecence Inc. 2021 自己紹介 【名前】大坪 誠(オオツボ マコト) 【所属】株式会社リブセンス アルバイト事業部 マーケティンググループ
【担当】アルバイト求人情報サイト「マッハバイト」の ブランディング および 広告運用 2
© Livecence Inc. 2021 Exploratoryの活用状況 【利用範囲】 • アンケートデータ 集計・可視化・分析 •
広告配信データ分析 • サイト内ユーザー行動ログデータ分析 etc. 【利点】 • 集計・可視化が速く、簡単に、柔軟にできる • データ量が大きくても処理できる • サポートが手厚い 3
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 4
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 5
© Livecence Inc. 2021 「マッハバイト」の事業構造 マッハバイトに求人広告を掲載 マッハバイトでバイト探し&応募 マッハボーナス 掲載費用 掲載or応募or採用時に
課金 採用・勤務が決まって 申請すると 5千円~1万円*のお祝い金 *不定期開催のボーナス増額タイム中の応募ならさらに+5,000円 6
© Livecence Inc. 2021 解決したい課題 マッハバイトでバイト探し&応募 マッハボーナス 採用・勤務が決まって 申請すると 5千円~1万円*のお祝い金
応募された時点では、 マッハボーナスを支払うかどうか (採用され、かつ申請されるか) 分からないため、将来発生する 費用がどれくらいになるか分からない ⇒ 1応募獲得あたりの広告費用を 最適化できない *不定期開催のボーナス増額タイム中の応募ならさらに+5,000円 7
© Livecence Inc. 2021 現状の運用 • マッハボーナスの金額は、求人ごとに応募時点で決まっている • マッハボーナスは応募後90日間申請可能 →
90日以上前の1ヵ月間の実績の平均金額を予測値としている 7月 8月 9月 10月 11月 1応募あたり平均 実績:1,000円 1応募あたり平均 予測:1,000円 【例】 8
© Livecence Inc. 2021 現状の運用の課題 例えば、男性と女性でマッハボーナスの受給率が違うとする 15% 10% 9
© Livecence Inc. 2021 現状の運用の課題 応募ユーザーの男女比が常に一定であるなら、 数ヵ月前の実績値がそのまま使えるかもしれない 7月 11月 1応募あたりの金額:1,000円
1応募あたりの金額:1,000円 10
© Livecence Inc. 2021 現状の運用の課題 応募ユーザーの男女比が変化している場合、 数ヵ月前の実績値をそのまま使うのは適切ではない 7月 11月 1応募あたりの金額:1,000円
1応募あたりの金額:1,000円?? 11
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 12
© Livecence Inc. 2021 解決方法(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 女性 19 大学生 ¥5,000 TRUE 0.25 女性 47 派遣社員 ¥10,000 FALSE 0.08 男性 29 フリーター ¥15,000 FALSE 0.13 女性 16 高校生 ¥5,000 FALSE 0.06 男性 24 短大生 ¥7,000 TRUE 0.28 未知のデータ 性別 年齢 職種 ボーナス 金額 ボーナス 受給 男性 30 フリーター ¥10,000 FALSE 女性 28 主婦 ¥10,000 TRUE 男性 17 高校生 ¥7,000 TRUE 男性 43 自営業 ¥15,000 FALSE 女性 22 大学生 ¥5,000 FALSE トレーニングデータ(過去実績データ) 性別 年齢 職種 ボーナス 金額 ボーナス 受給 女性 19 大学生 ¥5,000 ? 女性 47 派遣社員 ¥10,000 ? 男性 29 フリーター ¥15,000 ? 女性 16 高校生 ¥5,000 ? 男性 24 短大生 ¥7,000 ? 未知のデータ 予測モデル アルゴリズム 13
© Livecence Inc. 2021 解決方法(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 女性 19 大学生 ¥5,000 TRUE 0.25 女性 47 派遣社員 ¥10,000 FALSE 0.08 男性 29 フリーター ¥15,000 FALSE 0.13 女性 16 高校生 ¥5,000 FALSE 0.06 男性 24 短大生 ¥7,000 TRUE 0.28 未知のデータ ある一定期間の各応募について、 マッハボーナスを進呈するか否かを予測。 その結果をもとに、その期間の応募に対する マッハボーナスの平均進呈額を予測。 14
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 15
© Livecence Inc. 2021 ロジスティック回帰とは 目的変数が「2値」のロジカル型を対象とする統計的回帰モデル。 1つ以上の因子(説明変数)から、 ある事象が起こる確率を説明・予測する多変量解析の手法。 参照:https://exploratory.io/note/GMq1Qom5tS/ZSy0JQr3eO 16
© Livecence Inc. 2021 説明変数の選定(サマリビュー) ※例示しているデータはダミーです。実際の数値とは異なります。 予測したい変数とその他の各変数との相関を確認 ユーザーの属性(性別・年齢・利用デバイス等)や 応募先の条件(業種・職種・マッハボーナス金額等)などが マッハボーナス受給確率に影響がありそう
17
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 • タイプ :ロジスティック回帰を選択 • 目的変数:予測したい変数を選択 •
予測変数:影響がありそうな変数を選択 予測モデルの作成(ロジスティック回帰) 18
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 19
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 基本的に、AUCが高い(1に近い)ほど 予測性能が良いモデルといえる 予測モデルの評価(サマリ) 20
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 正解率は91%と高いが... 予測モデルの評価(サマリ) 21
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 全てをFALSEと予測すれば 91%の確率で正解してしまうモデルになっている 予測モデルの評価(予測マトリックス) 22
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価(予測確率) 0.5(デフォルト) TRUEと予測 FALSEと予測 23
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 TRUE/FALSEの 閾値を変更 0.5(デフォルト) 0.167 TRUE/FALSEの境界値(閾値)変更
24
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 25 TRUE/FALSEの境界値変更
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 TRUEと予測する割合が約8.7%になり、 元データのTRUEの割合とほぼ同じに 予測モデルの評価(予測マトリックス) 26
© Livecence Inc. 2021 Q. 最適な閾値はどういう基準で決めればよい? A. 目的によって異なる ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価(予測マトリックス)
27
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 28
© Livecence Inc. 2021 予測モデルの適用(イメージ) 予測モデル アルゴリズム 4~6月の応募実績データ マッハボーナスの進呈有無が確定している 90日以上前のデータに対して、構築したモデルで予測し、実績値と比較
7月の応募実績データ 7月の応募実績データ 予測値と実績値とを比較 29
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの適用 30
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの適用 31
© Livecence Inc. 2021 予測金額の計算①(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 ボーナス 予測金額 女性 19 大学生 ¥5,000 TRUE 0.25 ¥5,000 女性 47 派遣社員 ¥10,000 FALSE 0.08 \0 男性 29 フリーター ¥15,000 FALSE 0.13 \0 女性 16 高校生 ¥5,000 FALSE 0.06 \0 男性 24 短大生 ¥7,000 TRUE 0.28 ¥7,000 未知のデータ 予測ラベルがTRUEの応募には、実際に進呈する場合の金額を、 予測ラベルがFALSEの応募には、0円と予測する 32
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測金額の計算列追加① 33 predicted_labelがTRUEの場合
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価・検証① 全体の平均は実績値に近い値になるが、 あるセグメントごとに分けてみると、 かなり乖離が大きくなっている 34
© Livecence Inc. 2021 予測結果の確認 ※例示しているデータはダミーです。実際の数値とは異なります。 TRUEの割合 実績 予測ラベル 予測確率の平均
ロジスティック回帰で予測するのは、 「TRUE or FALSE」ではなく「TRUEである確率」 ⇒ ならば、期待値を求められるのでは? 35
© Livecence Inc. 2021 予測金額の計算②(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 ボーナス 予測金額 女性 19 大学生 ¥5,000 TRUE 0.25 ¥1,250 女性 47 派遣社員 ¥10,000 FALSE 0.08 ¥800 男性 29 フリーター ¥15,000 FALSE 0.13 ¥1,950 女性 16 高校生 ¥5,000 FALSE 0.06 ¥300 男性 24 短大生 ¥7,000 TRUE 0.28 ¥1,960 未知のデータ 予測ラベルにかかわらず、 (TRUEの場合の金額)×(TRUEである確率)で期待値を算出する* 36 *不均衡データの調整(オーバーサンプリング/アンダーサンプリング)をして構築したモデルでは使えない
© Livecence Inc. 2021 予測金額の計算②(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 ボーナス 予測金額 女性 19 大学生 ¥5,000 TRUE 0.25 ¥1,250 女性 47 派遣社員 ¥10,000 FALSE 0.08 ¥800 男性 29 フリーター ¥15,000 FALSE 0.13 ¥1,950 女性 16 高校生 ¥5,000 FALSE 0.06 ¥300 男性 24 短大生 ¥7,000 TRUE 0.28 ¥1,960 未知のデータ 予測ラベルにかかわらず、 (TRUEの場合の金額)×(TRUEである確率)で期待値を算出する* 37 予測ラベルは考慮しない →TRUE/FALSEの閾値を考える必要がない *不均衡データの調整(オーバーサンプリング/アンダーサンプリング)をして構築したモデルでは使えない
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測金額の計算列追加② 38
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価・検証② セグメントごとに分けてみても 比較的誤差の小さい予測ができている 39
© Livecence Inc. 2021 まとめ • Exploratoryを使えば、非エンジニアでも容易に予測モデルを構築できる • ロジスティック回帰は活用シーンが多い優秀な手法だが、 閾値の設定次第で予測結果が変わってしまう(閾値の最適化が難しい)
• 予測ラベルそのものが重要ではないケースにおいては、 予測確率や、予測確率から導いた期待値に着目するのも有力 40