Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Kaggle本輪読会_3章後半_20191211

syaorn_13
December 11, 2019
830

 Kaggle本輪読会_3章後半_20191211

「Kaggleで勝つデータ分析の技術」の輪読会資料です。
https://gihyo.jp/book/2019/978-4-297-10843-4

syaorn_13

December 11, 2019
Tweet

Transcript

  1. 今日の内容 3 3章(特徴量作成)の後半戦です 8. 他のテーブルと結合 9. 集約して統計量をとる 10. 時系列データの扱い 11.

    次元削減・教師なし学習による特徴量 12. その他テクニック 13. 分析コンペにおける特徴量作成の例
  2. 時系列データの大原則 15 予測する時点より過去の情報を使う →リークを防ぐため 3.10 時系列データの扱い 年 売上 2014 10万

    2015 13万 2016 2017 30万 ? 目的変数のリーク 目的変数以外のリーク 年 解約有無 買物履歴 2014 0 3件 2015 0 10件 2016 5件 2017 0件 ? 各時点で知ることのできない情報は使わない
  3. Testデータにおいて使える過去データを把握しておく →Testデータで使えない特徴量は意味がない Train Test 日付 12/1 12/2 12/3 12/4 12/5

    12/6 12/7 売上 100 120 90 100 ? ? ? 特徴量を作成する時の注意点 19 3.10 時系列データの扱い 前日の売上が分からない ? 例) 前日の売上から翌日の売上を予測するモデルを作った場合 ?
  4. Kaggle: Instacart Market Basket Analysis 35 出典:https://www.kaggle.com/c/instacart-market-basket-analysis/overview 3.12 分析コンペにおける特徴量作成の例 •

    予測すること 過去に購入した商品のうち、再注文する商品 • 使うデータ 過去の注文履歴
  5. ユーザーベースの特徴量 36 • どのくらい頻繁に再注文を行うか • 注文間の間隔 • 注文する時間帯 • オーガニック、グルテンフリー、アジアのアイテムを過去に注文したか

    • 一度の注文の商品数についての特徴 • 初めて購入するアイテムを含む注文はどれだけあるか 3.12 分析コンペにおける特徴量作成の例 ユーザーの属性ごとにを特定する効果
  6. アイテムベースの特徴量 37 • どの程度頻繁に購入されるか • カート内での位置 • どの程度「一度きり」として購入されるか • 同時に購入される商品の数についての統計量

    • 注文をまたいだ共起についての統計量 例:前回バナナを買った場合、次にイチゴを買うかどうか) • 連続注文(途切れずに連続で注文されること)についての統計量 • N回の注文中に再注文される確率 • どの曜日に注文されるかの分布 • 最初の注文後に再注文されるかの確率 • 注文間の間隔の統計量 3.12 分析コンペにおける特徴量作成の例 「日常的に購入される商品」と 「お試しで購入されやすい商品」 の違いを捉える?
  7. ユーザ×アイテムベースの特徴量 38 • ユーザがその商品を購入した回数 • ユーザがその商品を最後に購入してからの経過 • 連続注文 • カート内での位置

    • 当日にそのユーザがすでにそのアイテムを注文したか • 同時に購入される商品についての統計量 • ある商品の代わりに購入される商品(=注文をまたいだ共起につ いて、購入しなかったことに注目したもの) 3.12 分析コンペにおける特徴量作成の例 リピートする商品ほど、先にカゴ に入れる?