Upgrade to Pro — share decks privately, control downloads, hide ads and more …

時系列データに対する解釈可能な 決定木クラスタリング

時系列データに対する解釈可能な 決定木クラスタリング

時系列データに対する解釈可能な
決定木クラスタリング
東京工業大学
東将己 山根大輝 成民濟 稲室健太 永井将太 小林健 中田和秀
2023/08/03 2022/03/08
数理最適化と機械学習の融合に関する研究部会 2023/08/03

Avatar for MIKIO KUBO

MIKIO KUBO

May 27, 2025
Tweet

More Decks by MIKIO KUBO

Other Decks in Research

Transcript

  1.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ  1 ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ  ౦ژ޻ۀେֶ 東将⼰ ࢁࠜେً ੒ຽᖖ

    Ҵ݈ࣨଠ ӬҪকଠ খྛ݈ தా࿨ल 時系列データに対する解釈可能な 決定⽊クラスタリング
  2.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 4 背景と⽬的 本研究の概要 Ø 本研究は経営科学系研究部会連合協議会が主催する令和4年度 データ解析コンペティションにおける成果である Ø

    本研究で⽤いるデータは楽天グループ株式会社から提供いただいた 楽天市場の2019年1⽉から2020年12⽉の販売履歴データである 提供データの概要 カラム名 概要 購⼊年,週 年:2019,2020 週:2年間で104週 購⼊者の性別 3区分: 男性,⼥性,その他 購⼊者の年代 4区分: (20~35],(35~50],(50~65], (65~80] 購⼊者の地域 9区分: 北海道,東北,…九州,沖縄 購⼊アイテムのジャンル 3層構造: ⼤分類-中分類-⼩分類 購⼊アイテムの⾦額 上⼀桁で丸め込み
  3.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 背景と⽬的 本研究の概要 5 カラム名 概要 購⼊年,週 年:2019,2020

    週:2年間で104週 購⼊者の性別 3区分: 男性,⼥性,その他 購⼊者の年代 4区分: (20~35],(35~50],(50~65], (65~80] 購⼊者の地域 9区分: 北海道,東北,…, 九州,沖縄 購⼊アイテムのジャンル 3層構造: ⼤分類-中分類-⼩分類 購⼊アイテムの⾦額 上⼀桁で丸め込み 購⼊年/週 性別 年代 地域 ジャンル (⼤分類) ジャンル (中分類) ジャンル (⼩分類) 価格 2020/12 男性 (20~35] 九州 ⾐服 メンズ メンズパンツ 7000 2020/13 ⼥性 (35~50] 四国 ⾷品 健康⾷品 ダイエット⾷品 10000 Ø 例 総データ数: 12,888,912件
  4.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 6 背景と⽬的 本研究で扱うデータ カラム名 概要 購⼊年,週 年:2019,2020

    週:2年間で104週 購⼊アイテムのジャンル 中分類 購⼊回数 週ごと,ジャンルごとの購⼊回数 Ø 提供データのうち本研究では以下のデータを⽤いる Ø 提供データとは別に以下の外部データを使⽤ カラム名 概要 セール週 楽天スーパーセールが⾏われた週 緊急事態宣⾔の週 COVID-19による緊急事態宣⾔が⾏われた週
  5.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 背景と⽬的 本研究で扱うデータ 7 Ø データ例 購⼊年/週 ジャンル

    (中分類) 購⼊回数 セール 緊急事態宣⾔ 2019/01 ⾐服>>メンズ 12 × × … … … … … 2020/52 ⾐服>>メンズ 32 ◦ × 2019/01 ⾷品>>健康⾷品 7 × × … … … … … 2020/52 ⾷品>>健康⾷品 11 ◦ × 本研究ではこれらのデータを⽤いてビジネス的背景から 問題提起を⾏い,それの解決策を提案する データ数︓199(ジャンル数)×104(週)
  6.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 12 背景と⽬的 この2つのクラスタについてどのような解釈ができますか︖ 時間(週) 売 上 (

    個 数 ) 商品クラスタ1 商品クラスタ2 時間(週) 中ジャンルごとの売上時系列データをk-meansでクラスタリング 売 上 ( 個 数 ) 時系列クラスタリングの問題点(1/2)
  7.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 16 時系列クラスタリングの問題点(2/2) 客観性を重視した時系列データの解釈の難しさ 背景と⽬的 上クラスタ: 2020年10週⽬の売上個数が5000個以上 10週⽬ってなんだっけ︖

    5000個以上..うーん 時系列の⽣データで解釈しても 施策が⽴てづらい 時間(週) 時間(週) 客観的な事実のみ(例︓各週の売上)で クラスタリングを解釈しても施策が⽴てづらい 売 上 ( 個 数 ) 売 上 ( 個 数 )
  8.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 22 既存研究 決定⽊クラスタリング 解釈性の⾼いクラスリングとして決定⽊クラスタリングがある 1. Explainable k-Means

    and k-Medians Clustering (Dasgupta et al., 2020) k-meansで クラスタリング ① ② ③ ④ ⑤ ラベル付け 決定⽊で分類 問題点 k-meansの結果を予測しているだけで,直接クラスタリングを 解釈しているとは⾔えない
  9.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 23 既存研究 決定⽊クラスタリング 2. Interpretable clustering: an

    optimization approach (Bertsimas et al., 2021) 定式化 最適⽊ max 𝒙 𝑠(𝒙) s. t. 𝑥" ∈ {0,1} ⋮ • 葉ノードが⼀つのクラスタ • シルエット係数が最⼤になる ように特徴量と閾値を決定
  10.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 24 既存研究 決定⽊クラスタリング 2. Interpretable clustering: an

    optimization approach (Bertsimas et al., 2021) 定式化 最適⽊ max 𝒙 𝑠(𝒙) s. t. 𝑥" ∈ {0,1} ⋮ • 葉ノードが⼀つのクラスタ • シルエット係数が最⼤になる ように特徴量と閾値を決定 問題点 • 変数の個数が深さ𝐾に対して𝑶(𝟐𝑲)となる • シルエット係数の計算量が多い 学習に時間が かかる
  11.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 26 既存研究 既存研究2と時系列データの問題点 ⾼速に構築を⾏う アルゴリズムが必要 最適⽊は構築に時間がかかる 既存研究2の問題点

    時系列データの問題点 時系列データを解釈しやすい 決定⽊クラスタリングを提案 時系列データの⽣データで 解釈しても施策が⽴てづらい 既存研究2を⽤いても…
  12.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 30 提案⼿法 全体像 春のセールが効いているな…, 冬の売り上げが多い…, etc 提案フレームワーク:

    決定⽊でクラスタリング time 時系列データ 決定⽊の構築 提案①︓ 計算を⾼速化 クラスタリング&解釈 cluster 1 cluster 2 cluster 3 cluster 4
  13.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 提案フレームワーク: 決定⽊でクラスタリング 31 提案⼿法 全体像 time 時系列データ

    cluster 1 cluster 2 cluster 3 cluster 4 冬の売上 コロナ 春のセール 提案②: 解釈可能な特徴量に基づく分割 春のセールが効いているな…, 冬の売り上げが多い…, etc 決定⽊の構築 提案①︓ 計算を⾼速化 クラスタリング&解釈
  14.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 32 提案⼿法 提案① : ⾼速処理アルゴリズム Ø 提案①-1

    貪欲⽊を⽤いる ⽊を深くしても探索するデータ点が減るため,計算に時間がかからない シルエット係数が最も⼤きくなるように特徴量と閾値を選択し分割
  15.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 33 提案⼿法 提案① : ⾼速処理アルゴリズム 従来のシルエット係数 Ø

    クラスタ𝐶" ∈ 𝐶に属しているデータ𝑖の凝縮度𝑎" , 乖離度𝑏" ⾃クラスタ内の データとの平均距離 ⼀番近い他クラスタ内の データとの平均距離 Ø シルエット係数の算出 (𝑁はデータ数) 𝑠 = 1 𝑁 𝑏# − 𝑎# max(𝑎#, 𝑏#) + 𝑏$ − 𝑎$ max(𝑎$, 𝑏$) + ⋯ + 𝑏% − 𝑎% max(𝑎%, 𝑏%) 𝑎" = 1 𝐶" − 1 6 &∈(! 𝒙" − 𝒙& $ 𝑏" = min ("∈(/{(!} 1 𝐶, 6 &∈(" 𝒙" − 𝒙& $ Ø 提案①-2 ⾼速に計算可能な代理シルエット係数
  16.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 𝑎" = 1 𝐶" − 1 6

    &∈(! 𝒙" − 𝒙& $ 𝑏" = min ("∈(/{(!} 1 𝐶, 6 &∈(" 𝒙" − 𝒙& $ 34 提案⼿法 提案① : ⾼速処理アルゴリズム Ø 提案①-2 ⾼速に計算可能な代理シルエット係数 従来のシルエット係数 Ø クラスタ𝐶" ∈ 𝐶に属しているデータ𝑖の凝縮度𝑎" , 乖離度𝑏" Ø シルエット係数の算出 (𝑁はデータ数) 𝑠 = 1 𝑁 𝑏# − 𝑎# max(𝑎#, 𝑏#) + 𝑏$ − 𝑎$ max(𝑎$, 𝑏$) + ⋯ + 𝑏% − 𝑎% max(𝑎%, 𝑏%) 計算量が𝑂(データ数3)
  17.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 35 提案⼿法 提案① : ⾼速処理アルゴリズム Ø 提案①-2

    ⾼速に計算可能な代理シルエット係数 ︓𝒃𝒊 の計算対象クラスタが多い ︓全てのクラスタ間での平均距離を求める →枝ノード内で分割した2つのクラスタに対して⾏う 問題点1 原因 ︓計算が多い ︓データ間で分⺟max(𝑎", 𝑏")が異なる →クラスタごとに𝒂, 𝒃を算出 ︓距離の計算にL2ノルムを使⽤ →L2ノルムの2乗を使⽤することで共通項をまとめて計算 問題点2 原因1 原因2 シルエット係数の問題点
  18.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 36 提案⼿法 提案① : ⾼速処理アルゴリズム ü 距離の計算にL2ノルムの2乗を使⽤

    𝑎" = 1 𝐶" − 1 6 &∈(! 𝒙" − 𝒙& $ = 1 𝐶" − 1 𝐶" 𝒙" $ − 2𝒙" . 6 &∈(! 𝒙& + 6 &∈(! 𝒙& $ 𝑏" = min ("∈(/{(!} 1 𝐶, 6 &∈(" 𝒙" − 𝒙& $ = min ("∈(/{(!} 1 𝐶, 𝐶, 𝒙" $ − 2𝒙" . 6 &∈(" 𝒙& + 6 &∈(" 𝒙& $ ü 枝ノード内で分割した2つのクラスタに対して⾏う 枝ノード内のクラスタを𝐶#, 𝐶$ とおき,データ𝑖がクラスタ𝐶# に属するとする 𝑎" = 1 𝐶# − 1 𝐶# 𝒙" $ − 2𝒙" . 6 &∈(# 𝒙& + 6 &∈(# 𝒙& $ 𝑏" = 1 𝐶$ 𝐶$ 𝒙" $ − 2𝒙" . 6 &∈($ 𝒙& + 6 &∈($ 𝒙& $
  19.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 37 提案⼿法 提案① : ⾼速処理アルゴリズム ü クラスタごとに𝒂,

    𝒃を算出 枝ノード内で分割したクラスタ𝐶,, 𝑘 ∈ {1,2}に対して 𝑎(" = 1 𝐶, 6 "∈(" 𝑎" = 1 𝐶# 𝐶, − 1 6 "∈(" 𝐶, 𝒙" $ − 2𝒙" . 6 &∈(" 𝒙& + 6 &∈(" 𝒙& $ = 1 𝐶, 𝐶, − 1 2 𝐶, 6 &∈(" 𝒙& $ − 2 6 &∈(" 𝒙& . 6 &∈(" 𝒙& = 2 𝐶, − 1 6 &∈(" 𝒙& $ − 𝐶, 6 &∈(" 𝒙& 𝐶, $ 計算量𝑂( 𝐶4 ) クラスタ内データの L2ノルムの2乗和
  20.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 38 提案⼿法 提案① : ⾼速処理アルゴリズム ü クラスタごとに𝒂,

    𝒃を算出 枝ノード内で分割したクラスタ𝐶,, 𝑘 ∈ {1,2}に対して 𝑏(# = 1 𝐶# 6 "∈(# 𝑏" = 1 𝐶# 𝐶$ 6 "∈(# 𝐶$ 𝒙" $ − 2𝒙" . 6 &∈($ 𝒙& + 6 &∈($ 𝒙& $ = 1 𝐶# 𝐶$ 𝐶$ 6 "∈(# 𝒙" $ + 𝐶# 6 &∈($ 𝒙& $ − 2 6 "∈(# 𝒙" . 6 &∈($ 𝒙& = 6 ,∈{#,$} 1 𝐶, 6 &∈(" 𝒙& $ − 2 6 &∈(# 𝒙& 𝐶# . 6 &∈($ 𝒙& 𝐶$ 計算量𝑂( 𝐶5 + 𝐶3 ) 2つのクラタの重 ⼼の内積
  21.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 39 提案⼿法 提案① : ⾼速処理アルゴリズム ü クラスタごとに𝒂,

    𝒃を算出 枝ノード内で分割したクラスタ𝐶,, 𝑘 ∈ {1,2}に対して 𝑏($ = 1 𝐶$ 6 "∈($ 𝑏" = 1 𝐶# 𝐶$ 6 "∈($ 𝐶# 𝒙" $ − 2𝒙" . 6 &∈(# 𝒙& + 6 &∈($ 𝒙& $ = 1 𝐶# 𝐶$ 𝐶$ 6 "∈(# 𝒙" $ + 𝐶# 6 &∈($ 𝒙& $ − 2 6 "∈(# 𝒙" . 6 &∈($ 𝒙& = 6 ,∈{#,$} 1 𝐶, 6 &∈(" 𝒙& $ − 2 6 &∈(# 𝒙& 𝐶# . 6 &∈($ 𝒙& 𝐶$ したがって𝒃𝑪𝟏 = 𝒃𝑪𝟐
  22.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 40 提案⼿法 提案① : ⾼速処理アルゴリズム 提案⼿法 枝ノード内で分割したクラスタ𝐶,,

    𝑘 ∈ {1,2}に対して 𝑎(" = 1 𝐶# 𝐶$ − 𝐶, 6 "∈(" 𝒙" − 𝒙& $ 𝑏(# = 𝑏($ = 1 𝐶# 𝐶$ 6 "∈(# 6 &∈($ 𝒙" − 𝒙& $ 𝑠 = 𝐶# 𝐶# + 𝐶$ 𝑏(# − 𝑎(# max(𝑎(# , 𝑏(# ) + 𝐶$ 𝐶# + 𝐶$ 𝑏($ − 𝑎($ max(𝑎($ , 𝑏($ ) Ø 提案①-2 ⾼速に計算可能な代理シルエット係数 代理シルエット係数 𝑂 データ数3 → 𝑂 データ数 に改善
  23.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 42 提案⼿法 既存⼿法 売上時系列を⽤いて 評価指標を算出 問題点 売上時系列を⽤いて

    決定⽊を作成 時系列要素を考慮できる タイムポイントは意味を 捉えにくいため解釈が困難 特徴量が同じ 提案②: 解釈可能な特徴量に基づく分割 ⼀般的なクラスタリング
  24.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 43 提案⼿法 問題点 既存⼿法 解釈しやすい特徴量 のため解釈が容易 売上の時系列要素を

    考慮できない 解釈しやすい特徴量を⽤いて 評価指標を算出 解釈しやすい特徴量を⽤いて 決定⽊を作成 特徴量が同じ セール時の前週⽐, コロナの売上増加率,etc… 提案②: 解釈可能な特徴量に基づく分割 ⼀般的なクラスタリング
  25.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 45 提案⼿法 提案⼿法 ・解釈しやすい特徴量 を⽣成する 時系列特徴量 分枝特徴量

    売上時系列を⽤いて 評価指標を算出 特徴量が異なる 解釈しやすい特徴量を⽤いて 決定⽊を作成 提案②: 解釈可能な特徴量に基づく分割
  26.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 46 提案⼿法 提案⼿法 ・解釈しやすい特徴量 を⽣成する 売上時系列を⽤いて 評価指標を算出

    特徴量が異なる (例: セール時の売上の前週⽐,コロナ禍の売上増加率,各季節の売上割合) 解釈しやすい特徴量を⽤いて 決定⽊を作成 分枝特徴量 冬の売上 コロナ 春のセール 提案②: 解釈可能な特徴量に基づく分割 時系列特徴量
  27.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 提案⼿法 47 提案⼿法 ・解釈しやすい特徴量 を⽣成する (例: セール時の売上の前週⽐,コロナ禍の売上増加率,各季節の売上割合)

    時系列要素を考慮 解釈がしやすい 外部データなど時系列データには含まれない情報を⽤いて クラスタリング&解釈を⾏うことも可能 売上時系列を⽤いて 評価指標を算出 特徴量が異なる 時系列特徴量 冬の売上 コロナ 春のセール 解釈しやすい特徴量を⽤いて 決定⽊を作成 分枝特徴量 提案②: 解釈可能な特徴量に基づく分割
  28.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 49 数値検証 実験概要 ü 実験1. ⼈⼯データを利⽤ 代理シルエット係数による⾼速化の検証

    →計算時間と既存のシルエット係数値を⽐較 ü 実験2. 提供データを利⽤ 提案クラスタリングの妥当性検証 →時系列予測を⽤いて検証
  29.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 51 数値検証 実験1: 実験結果 代理シルエット係数による⾼速化の検証 データ数 データ数

    クラスタリングの品質を下げることなく データ数4000で速度が125倍改善(4562秒→36秒) 代理シルエット係数を使うと⾼速に貪欲⽊を構築 計 算 時 間 ( 秒 ) シ ル エ - ト 係 数 ▲シルエット係数 ▲シルエット係数 •代理シルエット係数 •代理シルエット係数
  30.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 52 数値検証 実験2: 実験⽬的,設定 ⽬的 クラスタリングを教師ありで定量的に評価できない →売上の時系列予測の精度を⽤いて定量的に評価

    時系列予測モデル設定 データ︓取引回数1万回以上の中分類ジャンルの売上個数(0-1正規化) 訓練+検証:2019年,テスト:2020年 モデル︓LightGBM vs クラスタリング ありの時系列予測 クラスタリング なしの時系列予測 クラスタリング結果の妥当性検証
  31.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 53 数値検証 実験2: 実験設定 ・データ︓ 中分類ジャンル (2019年の取引回数1万回以上)

    ・時系列特徴量︓ 売上個数 (標準化済み) ・分枝特徴量︓ セール時の売上個数増加割合 (直前1,2週との⽐較) 提案クラスタリング設定 クラスタリング結果の妥当性検証
  32.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 54 数値検証 実験2: 実験結果 特徴量 設定1 設定2

    直前5週分の売上個数 &セールの有無 ◦ ◦ クラスタid × ◦ テストデータのRMSE 0.2172 ± 0.0081 0.2062 ± 0.0046 ・予測に⽤いる特徴量︓ 直前5週分の売上個数, 各季節の楽天スーパーセールの有無(one-hot) クラスタid(one-hot) ・評価指標︓RMSE(試⾏回数20回の平均と標準偏差) クラスタリング結果の妥当性検証
  33.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 55 数値検証 実験2: 実験結果 ・予測に⽤いる特徴量︓ 直前5週分の売上個数, 各季節の楽天スーパーセールの有無(one-hot)

    クラスタid(one-hot) ・評価指標︓RMSE(試⾏回数20回の平均と標準偏差) クラスタリング結果の妥当性検証 クラスタidが予測に有⽤ 特徴量 設定1 設定2 直前5週分の売上個数 &セールの有無 ◦ ◦ クラスタid × ◦ テストデータのRMSE 0.2172 ± 0.0081 0.2062 ± 0.0046
  34.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 56 数値検証 実験2: 実験結果詳細 妥当性検証のRMSEの改善値が⼤きいTOP5 データポイント セール有無

    設定1 設定2 RMSEの 減少量 中分類ジャンル week 本・雑誌・コミック>カレンダー 62週⽬ 20年1回⽬ 0.5078 0.2978 0.2099 スイーツ・お菓⼦>アイスクリーム・シャーベット 62週⽬ 20年1回⽬ 0.4984 0.2910 0.2074 ⾷品>精⾁・⾁加⼯品 62週⽬ 20年1回⽬ 0.4551 0.2592 0.1959 本・雑誌・コミック>カレンダー 63週⽬ 20年1回⽬ 0.5652 0.3710 0.1942 おもちゃ>知育玩具・学習玩具 62週⽬ 20年1回⽬ 0.3690 0.1749 0.1941 ・分枝特徴量︓ セール時の売上個数増加割合 (直前1,2週との⽐較) 提案クラスタリング設定 分枝特徴量のセール情報が効いている
  35.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 57 数値検証 実験2:実験結果詳細 データポイント セール有無 設定1 設定2

    RMSEの 減少量 セールがある 週の累積個数 RMSE差分の ランキング 中分類ジャンル week カレンダー 62週⽬ 20年1回⽬ 0.5078 0.2978 0.2099 1 1 アイスクリーム・シャーベット 62週⽬ 20年1回⽬ 0.4984 0.2910 0.2074 2 2 精⾁・⾁加⼯品 62週⽬ 20年1回⽬ 0.4551 0.2592 0.1959 3 3 カレンダー 63週⽬ 20年1回⽬ 0.5652 0.3710 0.1942 4 4 知育玩具・学習玩具 62週⽬ 20年1回⽬ 0.3690 0.1749 0.1941 5 5 ⼿袋・アームカバー 62週⽬ 20年1回⽬ 0.4875 0.2941 0.1934 6 6 ⿂介類・⽔産加⼯品 62週⽬ 20年1回⽬ 0.4582 0.2648 0.1934 7 7 コスプレ・変装・仮装 62週⽬ 20年1回⽬ 0.4941 0.3009 0.1932 8 8 ぬいぐるみ・⼈形 62週⽬ 20年1回⽬ 0.4568 0.2654 0.1914 9 9 マフラー・スカーフ 63週⽬ 20年1回⽬ 0.5808 0.3938 0.187 10 10 対象データと対象データより上のランキングにいるデータのうち, 時期がセールであるものがいくつあるかをカウント 横軸をRMSE減少量のランキング,縦軸をセールがある週の累積個数にして, RMSEがよく改善したところにセールが集まっているかを次ページで確認
  36.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 58 数値検証 実験2:実験結果詳細 RMSE差分のランキングに対してセールの週の累積数 Top1 Top5,000 Top10,000

    クラスタid追加による改善が ⼤きい所にセールが集まって いる 設定1から設定2で改善したRMSEのランキング セールがある週の 累積個数
  37.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 60 提供データを ⽤いた分析 分枝特徴量の選択 冬の売上が多い 緊急事態宣⾔中の 売上が多い

    セールの効果が ⼤きい 季節,セール, 緊急事態宣⾔ を考慮した クラスタリング 提供された売上時系列データをk-meansでクラスタリングした結果
  38.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 61 提供データを ⽤いた分析 提供データの取り扱い 使⽤データ 時系列特徴量 ・2019-2020における中分類ジャンルの売上個数

    ・平均0, 分散1に標準化 分枝特徴量 各季節の売上個数の割合, 緊急事態宣⾔中の売上個数について1年前との⽐率, 各季節の楽天スーパーセールについて1週前との⽐率 (*詳細はAppendix3を参照) ・総取引回数1万回以上の中分類ジャンル
  39.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 63 提供データを ⽤いた分析 クラスタの決定⽊ルール(詳細はAppendix 4) クラスタ 個数

    決定⽊ルール(⼀部抜粋) 0 24 • 緊急事態宣⾔中の売上個数が去年の4%以上減 1 20 • 冬の楽天スーパーセールにより前週より103%以上増 2 23 • 緊急事態宣⾔中の売上個数が去年の4%減-17%増 3 20 • 緊急事態宣⾔中の売上個数が去年の17%以上増 4 35 • 冬の楽天スーパーセールにより前週より29-103%増 • 冬に売れる傾向 5 23 • 冬の楽天スーパーセールにより前週より29-103%増 • 冬に売れない傾向 6 20 • 緊急事態宣⾔中の売上個数が去年の17-56%増 • 冬に売れない傾向 • 春の楽天スーパーセールにより前週より83%以上増 7 33 • 緊急事態宣⾔中の売上個数が去年の56%以上増 • 冬に売れない傾向 • 春の楽天スーパーセールにより前週より83%以上増
  40.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 64 提供データを ⽤いた分析 似たジャンル間のクラスタの違い ジャンル︓アウトドア・スポーツ サッカー 野球

    ゴルフ ⽔泳 クラスタ0 ランニング ⾃転⾞ クラスタ6 外出⾃粛中アウトドア系は在庫を抑えた⽅がいいかもしれない 施策提案 キャンプ⽤品 スポーツウェア クラスタ2 フィットネス ヨガ クラスタ7
  41.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 65 提供データを ⽤いた分析 似たジャンル間のクラスタの違い ジャンル︓アウトドア・スポーツ サッカー 野球

    ゴルフ ⽔泳 クラスタ0 ランニング ⾃転⾞ クラスタ6 外出⾃粛中アウトドア系は在庫を抑えた⽅がいいかもしれない キャンプ⽤品 スポーツウェア クラスタ2 フィットネス ヨガ クラスタ7 緊急事態宣⾔中の 売上個数が去年の 4%以上減 緊急事態宣⾔中の 売上個数が去年の 4%減-17%増 緊急事態宣⾔中の 売上個数が去年の 17-56%増 緊急事態宣⾔中の 売上個数が去年の 56%以上増
  42.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 66 提供データを ⽤いた分析 似たジャンル間のクラスタの違い ジャンル︓アウトドア・スポーツ サッカー 野球

    ゴルフ ⽔泳 クラスタ0 ランニング ⾃転⾞ クラスタ6 外出⾃粛中アウトドア系は在庫を抑えた⽅がいいかもしれない キャンプ⽤品 スポーツウェア クラスタ2 フィットネス ヨガ クラスタ7 緊急事態宣⾔中の 売上個数が去年の 4%以上減 緊急事態宣⾔中の 売上個数が去年の 4%減-17%増 緊急事態宣⾔中の 売上個数が去年の 17-56%増 緊急事態宣⾔中の 売上個数が去年の 56%以上増
  43.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 67 提供データを ⽤いた分析 似たジャンル間のクラスタの違い ジャンル︓アウトドア・スポーツ サッカー 野球

    ゴルフ ⽔泳 クラスタ0 ランニング ⾃転⾞ クラスタ6 キャンプ⽤品 スポーツウェア クラスタ2 フィットネス ヨガ クラスタ7 緊急事態宣⾔中の 売上個数が去年の 4%以上減 緊急事態宣⾔中の 売上個数が去年の 4%減-17%増 緊急事態宣⾔中の 売上個数が去年の 17-56%増 緊急事態宣⾔中の 売上個数が去年の 56%以上増 外出⾃粛中 在庫を抑える 外出⾃粛中 いつも通り 外出⾃粛中 在庫を増やす 外出⾃粛中 在庫を増やす
  44.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 68 提供データを ⽤いた分析 似たジャンル間のクラスタの違い ジャンル︓アウトドア・スポーツ サッカー 野球

    ゴルフ ⽔泳 クラスタ0 ランニング ⾃転⾞ クラスタ6 キャンプ⽤品 スポーツウェア クラスタ2 フィットネス ヨガ クラスタ7 緊急事態宣⾔中の 売上個数が去年の 4%以上減 緊急事態宣⾔中の 売上個数が去年の 4%減-17%増 緊急事態宣⾔中の 売上個数が去年の 17-56%増 緊急事態宣⾔中の 売上個数が去年の 56%以上増 外出⾃粛中 在庫を抑える 外出⾃粛中 いつも通り 外出⾃粛中 在庫を増やす 外出⾃粛中 在庫を増やす 似たジャンルに対して解釈しやすいルールに基づいて 効果的な施策を提案可能
  45.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 提供データを ⽤いた分析 分析対象の絞り込み 72 ジャンル︓トップス・ボトムス 実測値:10-13%減 実測値:0-10%増

    クラスタ3 緊急事態宣⾔中の 売上個数が去年の 4%減-17%増 メンズ 緊急事態宣⾔中の 売上個数が去年の 4%以上減 クラスタ0 レディース 男⼥間で購買傾向に⼤きな差がある︕ 調査
  46.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 提供データを ⽤いた分析 分析対象の絞り込み 73 ジャンル︓トップス・ボトムス 外出⾃粛中 在庫を抑える

    外出⾃粛中 いつも通り 緊急事態宣⾔中の 売上個数が去年の 10-13%減 クラスタ0 レディース クラスタ3 緊急事態宣⾔中の 売上個数が去年の 0-10%増 メンズ 施策の提案だけではなく,調査すべきデータを絞り込める
  47.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 78 発展的活⽤1︓楽天市場の分析の活⽤例 モデルの 発展的活⽤ 2年間で数⼗件の取引 電子書籍 提供データ

    電⼦書籍提供サービス → 多くの取引がされているはず 楽天市場の中には電⼦書籍を販売するサービス楽天koboがある 書籍と電⼦書籍の売上⽐較による販促施策
  48.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 79 発展的活⽤1︓楽天市場の分析の活⽤例 2年間で数⼗件の取引 モデルの 発展的活⽤ 電子書籍 楽天市場の中には電⼦書籍を販売するサービス楽天koboがある

    提供データ 電⼦書籍提供サービス → 多くの取引がされているはず 提供データには電⼦書籍に関する購買履歴の⼀部しか含まれていない可能性 今回は電⼦書籍と書籍の直接的な⽐較が不可能 書籍と電⼦書籍の売上⽐較による販促施策
  49.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 81 発展的活⽤1︓楽天市場の分析の活⽤例 書籍はセールで購買数が伸びたはずなのに… クラスタ5 冬の楽天スーパーセールにより 前週より29-103%以上増 ビジネス・経済・就職

    ホビー・スポーツ・美術 ライトノベル ライフスタイル ⼩説・エッセイ 科学・医学・技術 語学・辞典・年鑑 資格・検定 モデルの 発展的活⽤ 電⼦書籍提供サービス 仮にセールの効果が 書籍より⼩さいとすると… 書籍と電⼦書籍の売上⽐較による販促施策
  50.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 82 発展的活⽤1︓楽天市場の分析の活⽤例 クラスタ5 冬の楽天スーパーセールにより 前週より29-103%以上増 冊⼦の書籍は買われているのに, 電⼦書籍の売上は伸びてない?

    セールでの電⼦書籍の売り出し⽅に課題? ビジネス・経済・就職 ホビー・スポーツ・美術 ライトノベル ライフスタイル ⼩説・エッセイ 科学・医学・技術 語学・辞典・年鑑 資格・検定 モデルの 発展的活⽤ 電⼦書籍提供サービス 書籍と電⼦書籍の売上⽐較による販促施策 仮にセールの効果が 書籍より⼩さいとすると…
  51.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 83 発展的活⽤1︓楽天市場の分析の活⽤例 DMMブックス 楽天kobo セールポイント還元率 70% 2-5%

    セール割引率 ポイント還元により 実質70%OFF 25%OFFチケット配布 対象商品に30%OFF 初回購⼊特典 70%OFF 6000円以上で2000円引き 4000円以上で1000円引き 2000円以上で400円引き 競合他社とのセール⽐較 楽天koboは主に楽天市場のセールとして⾏っている →ポイント還元率が2-5%と他社の70%に⽐べて低い モデルの 発展的活⽤ 書籍と電⼦書籍の売上⽐較による販促施策
  52.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 84 発展的活⽤1︓楽天市場の分析の活⽤例 DMMブックス 楽天kobo セールポイント還元率 70% 2-5%

    セール割引率 ポイント還元により 実質70%OFF 25%OFFチケット配布 対象商品に30%OFF 初回購⼊特典 70%OFF 6000円以上で2000円引き 4000円以上で1000円引き 2000円以上で400円引き 競合他社とのセール⽐較 楽天kobo単体で⼤きなセールを⾏うことで 売り上げが増加するかも モデルの 発展的活⽤ 既存のビジネスや売り出し⽅の問題提起と原因究明の⽀援 書籍と電⼦書籍の売上⽐較による販促施策
  53.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 86 モデルの 発展的活⽤ 発展的活⽤2︓楽天経済圏の情報をフル活⽤ time 時系列売上データ を⽤いてシルエット係数を計算

    分枝特徴量(各季節の売上など) を⽤いて分割 実験では楽天市場内のデータ を使⽤ 分枝特徴量に楽天市場外のデータを使うと クラスターの解釈の幅が広がる可能性 クラスタリング さらに…
  54.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 89 まとめ Ø 時系列データに対する解釈可能な決定⽊クラスタリング • 代理シルエット係数による計算⾼速化 +分枝特徴量による解釈性の向上

    • アウトドア系統のジャンルにおいて緊急事態宣⾔の影響を 段階的に捉え施策を提案 • 施策を考える上で調査すべきデータの絞り込みが可能 Ø 今後の展望 • 詳細な情報を⽤いて商品, ユーザのクラスタリング • クロスドメインのデータを⽤いたより詳細な分析
  55.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 参考⽂献 90 [Dasgupta, et al. (2020)] Sanjoy

    Dasgupta, Nave Frost, Michal Moshkovitz, Cyrus Rashtchian. “Explainable k-Means and k- Medians Clustering”, International Conference on Machine Learning (ICML), volume 119, 7055–7065 (2020) [Bertsimas et al. (2021)] Dimitris Bertsimas, Agni Orfanoudaki, Holly Wiberg. “Interpretable clustering: an optimization approach”, Machine Learning, volume 110, 89–138 (2021)
  56.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ Appendix 91 1. 代理シルエット係数の導出 2. 実験2:実験結果詳細 3.

    解釈性の評価で⽤いた特徴量の算出 4. 各クラスタ内データの詳細 5. 貪欲⽊のアルゴリズム 6. 特徴量増加による計算時間の推移 7. 提案①-2:問題点2の解決策の効果 8. 学習の安定性 9. 実験2:時系列予測精度向上の検定 10. 活⽤事例 11.シルエット係数値ごとのデータ
  57.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 92 Appendix 1. 代理シルエット係数の導出 ü 距離の計算にL2ノルムの2乗を使⽤ 𝑎"

    = 1 𝐶" − 1 6 &∈(! 𝒙" − 𝒙& $ = 1 𝐶" − 1 𝐶" 𝒙" $ − 2𝒙" . 6 &∈(! 𝒙& + 6 &∈(! 𝒙& $ 𝑏" = min ("∈(/{(!} 1 𝐶, 6 &∈(" 𝒙" − 𝒙& $ = min ("∈(/{(!} 1 𝐶, 𝐶, 𝒙" $ − 2𝒙" . 6 &∈(" 𝒙& + 6 &∈(" 𝒙& $ ü 枝ノード内で分割した2つのクラスタに対して⾏う 枝ノード内のクラスタを𝐶#, 𝐶$ とおき,データ𝑖がクラスタ𝐶# に属するとする 𝑎" = 1 𝐶# − 1 𝐶# 𝒙" $ − 2𝒙" . 6 &∈(# 𝒙& + 6 &∈(# 𝒙& $ 𝑏" = 1 𝐶$ 𝐶$ 𝒙" $ − 2𝒙" . 6 &∈($ 𝒙& + 6 &∈($ 𝒙& $
  58.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 93 Appendix 1. 代理シルエット係数の導出 ü クラスタごとに𝒂, 𝒃を算出

    枝ノード内で分割したクラスタ𝐶,, 𝑘 ∈ {1,2}に対して 𝑎(" = 1 𝐶, 6 "∈(" 𝑎" = 1 𝐶# 𝐶, − 1 6 "∈(" 𝐶, 𝒙" $ − 2𝒙" . 6 &∈(" 𝒙& + 6 &∈(" 𝒙& $ = 1 𝐶, 𝐶, − 1 2 𝐶, 6 &∈(" 𝒙& $ − 2 6 &∈(" 𝒙& . 6 &∈(" 𝒙& = 2 𝐶, − 1 6 &∈(" 𝒙& $ − 𝐶, 6 &∈(" 𝒙& 𝐶, $ 計算量𝑂( 𝐶4 ) クラスタ内データの L2ノルムの2乗和 クラスタの重⼼の L2ノルムの2乗
  59.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 94 Appendix 1. 代理シルエット係数の導出 ü クラスタごとに𝒂, 𝒃を算出

    枝ノード内で分割したクラスタ𝐶,, 𝑘 ∈ {1,2}に対して 𝑏(# = 1 𝐶# 6 "∈(# 𝑏" = 1 𝐶# 𝐶$ 6 "∈(# 𝐶$ 𝒙" $ − 2𝒙" . 6 &∈($ 𝒙& + 6 &∈($ 𝒙& $ = 1 𝐶# 𝐶$ 𝐶$ 6 "∈(# 𝒙" $ + 𝐶# 6 &∈($ 𝒙& $ − 2 6 "∈(# 𝒙" . 6 &∈($ 𝒙& = 6 ,∈{#,$} 1 𝐶, 6 &∈(" 𝒙& $ − 2 6 &∈(# 𝒙& 𝐶# . 6 &∈($ 𝒙& 𝐶$ 計算量𝑂( 𝐶5 + 𝐶3 ) クラスタ内データの L2ノルムの2乗平均 2つのクラスタの 重⼼の内積
  60.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 95 Appendix 1. 代理シルエット係数の導出 ü クラスタごとに𝒂, 𝒃を算出

    枝ノード内で分割したクラスタ𝐶,, 𝑘 ∈ {1,2}に対して 𝑏($ = 1 𝐶$ 6 "∈($ 𝑏" = 1 𝐶# 𝐶$ 6 "∈($ 𝐶# 𝒙" $ − 2𝒙" . 6 &∈(# 𝒙& + 6 &∈($ 𝒙& $ = 1 𝐶# 𝐶$ 𝐶$ 6 "∈(# 𝒙" $ + 𝐶# 6 &∈($ 𝒙& $ − 2 6 "∈(# 𝒙" . 6 &∈($ 𝒙& = 6 ,∈{#,$} 1 𝐶, 6 &∈(" 𝒙& $ − 2 6 &∈(# 𝒙& 𝐶# . 6 &∈($ 𝒙& 𝐶$ したがって𝒃𝑪𝟏 = 𝒃𝑪𝟐
  61.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 96 Appendix 2. 実験2:実験結果詳細 データポイント セール有無 設定1

    設定2 RMSEの 減少量 セールがある 週の累積個数 RMSE差分の ランキング 中分類ジャンル week カレンダー 62週⽬ 20年1回⽬ 0.5078 0.2978 0.2099 1 1 アイスクリーム・シャーベット 62週⽬ 20年1回⽬ 0.4984 0.2910 0.2074 2 2 精⾁・⾁加⼯品 62週⽬ 20年1回⽬ 0.4551 0.2592 0.1959 3 3 カレンダー 63週⽬ 20年1回⽬ 0.5652 0.3710 0.1942 4 4 知育玩具・学習玩具 62週⽬ 20年1回⽬ 0.3690 0.1749 0.1941 5 5 ⼿袋・アームカバー 62週⽬ 20年1回⽬ 0.4875 0.2941 0.1934 6 6 ⿂介類・⽔産加⼯品 62週⽬ 20年1回⽬ 0.4582 0.2648 0.1934 7 7 コスプレ・変装・仮装 62週⽬ 20年1回⽬ 0.4941 0.3009 0.1932 8 8 ぬいぐるみ・⼈形 62週⽬ 20年1回⽬ 0.4568 0.2654 0.1914 9 9 マフラー・スカーフ 63週⽬ 20年1回⽬ 0.5808 0.3938 0.187 10 10 対象データと対象データより上のランキングにいるデータのうち, 時期がセールであるものがいくつあるかをカウント 横軸をRMSE減少量のランキング,縦軸をセールがある週の累積個数にして, RMSEがよく改善したところにセールが集まっているかを次ページで確認
  62.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 97 Appendix 2. 実験2:実験結果詳細 RMSE差分のランキングに対してセールの週の累積数 Top1 Top5,000

    Top10,000 セールがあるところで クラスタid追加による改善が ⼤きい傾向がある 設定1から設定2で改善したRMSEのランキング セールがある週の 累積個数
  63.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 98 Appendix 3. 解釈性の評価で⽤いた特徴量の算出 時期𝑡における売上個数を𝑟1 とすると ü

    各季節の売上個数の割合 𝑎234256 = ∑7∈234256 𝑟7 ∑&∈{289:6;,2<==39,>4??,@:6A39} ∑7∈& 𝑟7 × season ∑&∈{289:6;,2<==39,>4??,@:6A39} 𝑗 𝑓𝑒𝑎𝑡𝑢𝑟𝑒1234256 = L 0 if: 𝑎234256 < 1 1 if: 𝑎234256 ≥ 1 ü 緊急事態宣⾔中の売上個数について1年前との⽐率 緊急事態宣⾔中の時期を𝑘𝑖𝑛𝑘𝑦𝑢,その1年前を𝑝𝑟𝑒_𝑘𝑖𝑛𝑘𝑦𝑢とすると 𝑓𝑒𝑎𝑡𝑢𝑟𝑒2 = ∑7∈,"B,CD 𝑟7 ∑7∈EFG_,"B,CD 𝑟7 ü 各季節の楽天スーパーセールについて1週前との⽐率 𝑡 ∈ {2019,2020}年の季節𝑠のセール時期を𝑠𝑎𝑙𝑒I 1, それらの1週前の時点を 𝑝𝑟𝑒IJKG' ( とすると 𝑓𝑒𝑎𝑡𝑢𝑟𝑒3 = 1 2 max #∈%&'()%*+(! "#$% 𝑟# 𝑟')( !&'(! "#$% + max #∈%&'()%*+(! "#"# 𝑟# 𝑟')( !&'(! "#"#
  64.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 99 Appendix 4. 各クラスタ内データの詳細 クラスタ 個数 決定⽊ルール(⼀部抜粋)

    0 24 • 緊急事態宣⾔中の売上個数が去年の4%以上減 1 20 • 冬の楽天スーパーセールにより前週より103%以上増 2 23 • 緊急事態宣⾔中の売上個数が去年の4%減-17%増 3 20 • 緊急事態宣⾔中の売上個数が去年の17%以上増 4 35 • 冬の楽天スーパーセールにより前週より29-103%増 • 冬に売れる傾向 5 23 • 冬の楽天スーパーセールにより前週より29-103%増 • 冬に売れない傾向 6 20 • 緊急事態宣⾔中の売上個数が去年の17-56%増 • 冬に売れない傾向 • 春の楽天スーパーセールにより前週より83%以上増 7 33 • 緊急事態宣⾔中の売上個数が去年の56%以上増 • 冬に売れない傾向 • 春の楽天スーパーセールにより前週より83%以上増
  65.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 100 Appendix 4. クラスタ0の中分類ジャンル id 個数 決定⽊ルール(⼀部抜粋)

    0 24 • 緊急事態宣⾔中の売上個数が去年の4%以上減 CD, メモリーカード, 名前シール・スタンプ, 弁当箱・⽔筒, ゴルフ, サッカー・フットサル, テニス, マリンスポーツ, 野球・ソフトボール, ⽔泳, バッグ, ベルト・サスペンダー, 傘, コスプレ・変装・仮装, パーティー・イベント⽤品, コート・ジャケット(メンズファッション), コート・ジャケット(レディースファッション), ボトムス, ワンピース, トップス(レディースファッション), コンタクトレンズ・ケア⽤品, メンズ腕時計, レディース靴, 靴ケア⽤品・アクセサリー ⽔着や集団スポーツなど外出⾃粛中に懸念されていたものが多い
  66.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 101 Appendix 4. クラスタ0の中分類ジャンル クラスタ0 時間(週) 売

    上 個 数 ( 標 準 化 ) id 個数 決定⽊ルール(⼀部抜粋) 0 53 • 緊急事態宣⾔中の売上個数が去年の4%以上減
  67.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 102 Appendix 4. クラスタ1の中分類ジャンル id 個数 決定⽊ルール(⼀部抜粋)

    1 20 • 冬の楽天スーパーセールにより前週より103%以上増 ぬいぐるみ・⼈形, 知育玩具・学習玩具, おむつ・トイレ⽤品, ⼦供部屋⽤インテリア・寝具・収納, ヘルスケア・衛⽣⽤品, アイスクリーム・シャーベット, クッキー・焼き菓⼦, ケーキ, チョコレート, ナッツ, 洋菓⼦, ウインタースポーツ, プレイステーション4, マフラー・スカーフ, ⼿袋・アームカバー, 占い・開運・⾵⽔・パワーストーン, 防災関連グッズ, カレンダー, スキンケア, 韓国コスメ 冬に使うものや,クリスマスプレゼント等に⽤いられるものがみられる
  68.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 103 Appendix 4. クラスタ1の中分類ジャンル クラスタ1 時間(週) 売

    上 個 数 ( 標 準 化 ) id 個数 決定⽊ルール(⼀部抜粋) 1 20 • 冬の楽天スーパーセールにより前週より103%以上増
  69.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 104 Appendix 4. クラスタ2の中分類ジャンル id 個数 決定⽊ルール(⼀部抜粋)

    2 50 • 緊急事態宣⾔中の売上個数が去年の4%減-17%増 キッズファッション, レディースジュエリー・アクセサリー, アウトドア, スポーツウェア・アクセサリー, バッテリー・充電器, 帽⼦, 財布・ケース, ⼩動物⽤品, ⽝⽤品, 猫⽤品, 喫煙具, ズボン・パンツ, トップス(メンズファッション), 和服, 仏壇・仏具・神具, 印鑑・ハンコ, ⽔・炭酸⽔, ネイル, ベースメイク・メイクアップ, ⽇焼け⽌め・UVケア, ⾹⽔・フレグランス, ⾞⽤品, メンズ靴 外出⾃粛による影響が⼩さい,または関係がないものが⾒られる
  70.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 106 Appendix 4. クラスタ3の中分類ジャンル id 個数 決定⽊ルール(⼀部抜粋)

    3 20 • 緊急事態宣⾔中の売上個数が去年の17%以上増 DVD, オフィス家具, キッチン整理⽤品, フィッシング, パソコン, 熱帯⿂・アクアリウム, 衛⽣⽇⽤品・衛⽣医療品, ⾝体測定器・医療計測器, エンターテインメント, ボーイズラブ, ⼈⽂・地歴・社会, 学習参考書・問題集, ⽂庫・新書, 楽譜, 雑誌, 炭酸飲料, DIY・⼯具, エクステリア・ガーデンファニチャー, ガーデニング・農業, ⽊材・建築資材・設備 コロナによって需要が上がったもの,巣篭もり需要の ⾼いものがみられる
  71.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 108 Appendix 4. クラスタ4の中分類ジャンル id 個数 決定⽊ルール(⼀部抜粋)

    4 35 • 冬の楽天スーパーセールにより前週より29-103%増 • 冬に売れる傾向 インテリア⼩物・置物, ライト・照明器具, メンズ, コーヒー・お茶⽤品, 鍋・フ ライパン, ボディピアス, あめ・ミント・ガム, せんべい・⽶菓, 和菓⼦, 製菓・ 製パン材料, 健康グッズ, 健康⾷品, NintendoSwitch, PCサプライ・消耗品, 外付けドライブ・ストレージ, ウイスキー, ワイン, コレク ション, 季節・空調家電, ⽣活家電, ⽇本酒, 焼酎, バス⽤品, ⽂房具・事務⽤品, 絵本・児童書・図鑑, コーヒー, その他(⾷品), チーズ・乳製品, フルーツ・果物, 乾物, 惣菜, 漬け物・梅⼲し・キムチ, ⽶・雑 穀, 精⾁・⾁加⼯品, ⿂介類・⽔産加⼯品 ふるさと納税等による影響から⾷べ物が多い, クリスマスプレゼントに⽤いられるものが⾒られる
  72.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 109 Appendix 4. クラスタ4の中分類ジャンル クラスタ4 時間(週) 売

    上 個 数 ( 標 準 化 ) id 個数 決定⽊ルール(⼀部抜粋) 4 35 • 冬の楽天スーパーセールにより前週より29-103%増 • 冬に売れる傾向
  73.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 110 Appendix 4. クラスタ5の中分類ジャンル id 個数 決定⽊ルール(⼀部抜粋)

    5 23 • 冬の楽天スーパーセールにより前週より29-103%増 • 冬に売れない傾向 Blu-ray, アクセサリー・部品, 壁紙・装飾フィルム, スマートフォン・携帯電話アクセサリー, 眼鏡・サングラス, ペット⽤お⼿⼊れ⽤品, 介護⽤品, 医薬品・医薬部外品, その他(⽇⽤品雑貨・⽂房具・⼿芸), ⼿芸・クラフト・⽣地, コミック, ビジネス・経済・就職, ホビー・スポーツ・美術, ライトノベル, ライフスタイル, ⼩説・エッセイ, 科学・医学・技術, 語学・辞典・年鑑, 資格・検定, 野菜・果実飲料, 腕時計⽤アクセサリー, 花・観葉植物, バイク⽤品 多くの⼈に購⼊されるため,セールによる購買意欲は ⾼まるが,特別冬に買うものではないものがみられる
  74.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 111 Appendix 4. クラスタ5の中分類ジャンル クラスタ5 時間(週) 売

    上 個 数 ( 標 準 化 ) id 個数 決定⽊ルール(⼀部抜粋) 5 23 • 冬の楽天スーパーセールにより前週より29-103%増 • 冬に売れない傾向
  75.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 112 Appendix 4. クラスタ6の中分類ジャンル id 個数 決定⽊ルール(⼀部抜粋)

    6 20 • 緊急事態宣⾔中の売上個数が去年の17-56%増 • 冬に売れない傾向 • 春の楽天スーパーセールにより前週より83%以上増 ベッド, レディース, ベビーファッション, ベビー⽤寝具・ベッド, マタニティ・ママ⽤品, 出産祝い・ギフト, 授乳⽤品・ベビー⽤⾷事⽤品, ランニング・マラソン, ⾃転⾞・サイクリング, スマートウォッチ本体, スマートフォン・タブレット⽤ケーブル・変換アダプター, サプリメント, ダイエット, デンタルケア, タオル, 洗濯⽤品, その他(本・雑誌・コミック), お茶・紅茶, ヘアケア・スタイリング, 調味料 幼児向けの商品や,コロナによって外出ができなくなった ため距離を保ちながら健康を維持できるものが⾒られる
  76.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 113 Appendix 4. クラスタ6の中分類ジャンル id 個数 決定⽊ルール(⼀部抜粋)

    6 20 • 緊急事態宣⾔中の売上個数が去年の17-56%増 • 冬に売れない傾向 • 春の楽天スーパーセールにより前週より83%以上増 クラスタ6 時間(週) 売 上 個 数 ( 標 準 化 )
  77.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 114 Appendix 4. クラスタ7の中分類ジャンル id 個数 決定⽊ルール(⼀部抜粋)

    7 33 • 緊急事態宣⾔中の売上個数が去年の56%以上増 • 冬に売れない傾向 • 春の楽天スーパーセールにより前週より83%以上増 オーディオ, イス・チェア, カーテン・ブラインド, カーペット・マット・畳, クッション・座布団, ゴミ箱, 収納家具, 寝具, 保存容器・調味料⼊れ, 調理器具・製菓器具, 配膳⽤品・キッチンファブリック, ⾷器・カトラリー・グラス, ドライフルーツ, フィットネス・トレーニング, ヨガ・ピラティス, タブレットPCアクセサリー, リラックス・マッサージ⽤品, ハンカチ・ハンドタオル, PCアクセサリー, ビール・発泡酒, キッチン家電, 美容・健康家電, 電池, 掃除⽤品, ⽇⽤消耗品, ⽣活雑貨, アロマ・お⾹, ボディケア, メイク道具・ケアグッズ, パン・ジャム・シリアル, 粉類, 野菜・きのこ, 麺類 家具家電など新⽣活に必要なものが多く⾒られ, 室内で⼀⼈でできるものが⾒られる
  78.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 115 Appendix 4. クラスタ7の中分類ジャンル id 個数 決定⽊ルール(⼀部抜粋)

    7 33 • 緊急事態宣⾔中の売上個数が去年の56%以上増 • 冬に売れない傾向 • 春の楽天スーパーセールにより前週より83%以上増 クラスタ7 時間(週) 売 上 個 数 ( 標 準 化 )
  79.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 116 Appendix 5. 貪欲⽊のアルゴリズム ü ハイパーパラメータ ・greedy_thre:

    決定⽊の分岐を終了する閾値 ・stop_amount: クラスタ内のデータの最⼩個数 ü アルゴリズム 1. 枝ノード内のデータに対し,全ての特徴量,全てのデータ点の値 で2分割し,各分割に対し評価指標を計算.ここで分割された2つ のデータ群の内どちらか⼀⽅の個数がstop_amount未満のとき, 評価値を-infにする 2. 1で求められた評価指標の内,⼀番⼤きな値がgreedy_thre未満 であれば分割を終了し,枝ノード内のデータをクラスタとする. そうでなければ3に進む. 3. 1で求められた評価指標の内,⼀番⼤きな値でデータを分割 4. 1に戻る
  80.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 117 Appendix 6. 特徴量増加による計算時間の推移 使⽤データ 設定 ・特徴量数︓

    10-100個まで10刻み ・評価指標︓ 計算時間, 既存のシルエット係数値 以下のような4つの正規分布に従う⼈⼯データを⽣成 (画像は2次元のもので3つ⽬の次元は縦軸の平均分散を⽤いて4つ⽬の次 元は横軸の平均分散を⽤いて…を繰り返して特徴量を増やす)
  81.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 119 Appendix 7.提案①-2:問題点2の解決策の効果 提案①-2の問題点2に対する解決策の効果の検証を⾏う ・計算が多い →クラスタごとに𝒂, 𝒃を算出,距離の計算にL2ノルムの2乗を使⽤

    使⽤データ 以下のような4つの正規分布に従う⼈⼯データを⽣成 設定 ・データ数︓ 400-4000個まで400刻み ・評価指標︓ 計算時間, 既存のシルエット係数値 ・条件︓ 両⼿法とも提案①-2の 問題点1の解決策については 適⽤
  82.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ Appendix 8.学習の安定性 121 実験内容︓ • 取引回数10000回未満のサブジャンルを削除 •

    ランダムにデータを10%減らすことを100回繰り返し 決定⽊を100個作る.100個の決定⽊のうち ①各分枝特徴量が決定⽊ルールに出現する回数の分布 ②シルエット係数の分布 を調べる Hyperparameter: greedy_score_thre=0, stop_amount=20
  83.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ Appendix 8.学習の安定性 124 平 均 ︓-0.044 標準偏差︓

    0.0039 →データが多少変わっても シルエット係数は⼤きく 変わらない 提案⼿法がデータに対して安定していることがわかった ②シルエット係数の分布 シルエット係数値 回 数 データを変えて作った100個の決定⽊のシルエット係数の分布
  84.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 125 Appendix 9. 実験2:時系列予測精度向上の検定 設定1, 設定2のRMSEの差が有意であるかどうかを検定する 帰無仮説︓設定2の平均が設定1の平均と等しい

    対⽴仮説︓設定2の平均が設定1の平均より⼤きい(⽚側検定) 𝑝値= 1.66×10LM < 0.05 → 帰無仮説が棄却され対⽴仮説が採択 Welchのt検定 特徴量 設定1 設定2 直前5週分の売上個数 &セールの有無 ◦ ◦ クラスタid × ◦ テストデータのRMSE 0.2172 ± 0.0081 0.2062 ± 0.0046
  85.  ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ ਺ཧ࠷దԽͱػցֶशͷ༥߹ʹؔ͢Δݚڀ෦ձ 126 Appendix 10. 活⽤事例 売れやすい時期の 傾向を捉える →

    繫忙期にも対応 在庫管理 効果的な配信期間や ターゲットの選定 → CVRの向上へ 広告・宣伝 他の要因より セールの影響が 有効な商品を洗い出す → 商品に特化したセールへ 楽天セール 特徴量ごとに商品の 位置付けが分かる → イベントに合わせた 多様なポジショニングへ 商品ポジショニング