Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ストリーミング時系列データの効率的なディスコードモニタリングアルゴリズム / Discord ...

ストリーミング時系列データの効率的なディスコードモニタリングアルゴリズム / Discord Monitoring for Streaming Time-series, presented at DEIM 2019

Shinya Kato

March 05, 2019
Tweet

More Decks by Shinya Kato

Other Decks in Research

Transcript

  1. 研究背景(2/2) ⚫ディスコード [Keogh ’06] - 時系列データを分析する最も重要な技術の一つ - 時系列データの中に現れる通常と異なるパターン 2 [Keogh

    ’06] E. Keogh, “HOT SAX: Efficiently finding the most unusual time series subsequence,” ICDM-2006 心電図の時系列データ ディスコード ストリーミング時系列データに対してディスコードの モニタリングを行うことでリアルタイムに異常検知が可能
  2. id NN 1 2, 1.0 2 1, 1.0 3 1,

    1.1 4 1, 1.7 5 8, 3.3 6 4, 3.1 7 8, 5.2 8 5, 3.5 9 提案アルゴリズム - サブシーケンスの生成 ⚫ウィンドウ内の各サブシーケンスが最近傍の情報(NN)を 保持することで最近傍が変化するサブシーケンスを特定 8 id NN 1 2, 1.0 2 1, 1.0 3 1, 1.1 4 1, 1.7 5 8, 3.3 6 4, 3.1 7 8, 5.2 8 5, 3.5 𝑠1 𝑠2 𝑠4 𝑠6 𝑠5 𝑠7 𝑠8 𝑠9 𝑠3 𝑠9 に対して最近傍探索 𝑑 𝑠1 , 𝑠9 = 8.8 𝑑 𝑠2 , 𝑠9 = 9.8 𝑑 𝑠3 , 𝑠9 = 8.2 𝑑 𝑠4 , 𝑠9 = 8.9 𝑑 𝑠5 , 𝑠9 = 0.9 𝑑 𝑠6 , 𝑠9 = 4.5 𝑑 𝑠7 , 𝑠9 = 2.8 𝑑 𝑠8 , 𝑠9 = 2.2 9, 0.9 9, 2.8 5, 0.9 9, 2.2 NNにより最近傍が変化するサブシーケンスを効率的に特定
  3. 提案アルゴリズム - サブシーケンスの削除 ⚫ウィンドウ内の各サブシーケンスが逆最近傍のリスト(RL)を 保持することで最近傍が変化するサブシーケンスを特定 9 id NN RL 1

    2, 1.0 2, 3, 4 2 1, 1.0 3 1, 2.1 4 1, 1.7 6 5 9, 0.9 9 6 4, 3.1 7 9, 2.8 8 9, 2.2 9 5, 0.9 𝑠1 𝑠2 𝑠4 𝑠6 𝑠5 𝑠7 𝑠8 𝑠9 𝑠3 RLにより最近傍が変化するサブシーケンスを効率的に特定 4, 1.8 2, 4.0 2, 1.8
  4. id NNolder NNyounger NN RL 1 2, 1.0 2, 1.0

    2, 3, 4 2 1, 1.0 4, 1.8 1, 1.0 3 1, 1.1 6, 2.9 1, 1.1 4 1, 1.7 6, 3.0 1, 1.7 6 5 4, 8.2 8, 3.3 8, 3.3 9 6 4, 3.1 7, 5.3 4, 3.1 7 6, 7.4 8, 5.2 8, 5.2 8 5, 3.5 5, 3.5 9 提案アルゴリズム(拡張) - サブシーケンスの生成 ⚫最近傍を自身より前に生成されたもの(NNolder )と 自身より後に生成されたもの(NNyounger )に分けて保持 11 id NNolder NNyounger NN RL 1 2, 1.0 2, 1.0 2, 3, 4 2 1, 1.0 4, 1.8 1, 1.0 3 1, 1.1 6, 2.9 1, 1.1 4 1, 1.7 6, 3.0 1, 1.7 6 5 4, 8.2 8, 3.3 8, 3.3 9 6 4, 3.1 7, 5.3 4, 3.1 7 6, 7.4 8, 5.2 8, 5.2 8 5, 3.5 5, 3.5 𝑠1 𝑠2 𝑠4 𝑠6 𝑠5 𝑠7 𝑠8 𝑠9 𝑠3 NNyounger を常に正確に保持可能 9, 0.9 9, 2.8 9, 2.2 9, 0.9 9, 2.8 9, 2.2 5, 0.9 5, 0.9
  5. id NNolder NNyounger NN RL 1 2, 1.0 2, 1.0

    2, 3, 4 2 1, 1.0 4, 1.6 1, 1.0 3 1, 1.1 6, 4.2 1, 1.1 4 1, 1.7 6, 3.0 1, 1.7 6 5 4, 8.2 9, 0.9 9, 0.9 9 6 4, 3.1 7, 5.8 4, 3.1 7 6, 7.4 9, 2.8 9, 2.8 8 5, 3.5 9, 2.2 9, 2.2 9 5, 0.9 5, 0.9 提案アルゴリズム(拡張) - サブシーケンスの削除 ⚫最近傍を自身より前に生成されたもの(NNolder )と 自身より後に生成されたもの(NNyounger )に分けて保持 12 𝑠1 𝑠2 𝑠4 𝑠6 𝑠5 𝑠7 𝑠8 𝑠9 𝑠3 2, 4.0 2, 4.0 最近傍探索の実行回数を削減
  6. 評価 ⚫データセット - GoogleMemory Googleのデータセンタのメモリ使用率の時系列データ ⚫パラメータ ⚫評価手法 - 提案アルゴリズム :NNとRLを保持

    - 提案アルゴリズム(拡張) :NNyounger とNNolder とRLを保持 ⚫評価指標 - ウィンドウ1スライド当たりの平均更新時間 - ウィンドウ1スライド当たりの最悪更新時間 13 ウィンドウサイズ𝑤 [× 103] 5, 10, 15, 20 ディスコード長𝑙 50, 100, 150, 200
  7. 0 50 100 150 50 100 150 200 平均更新時間 [msec]

    ディスコード長𝑙 提案アルゴリズム 提案アルゴリズム(拡張) 0 1000 2000 3000 50 100 150 200 最悪更新時間 [msec] ディスコード長𝑙 提案アルゴリズム 提案アルゴリズム(拡張) 結果 – ディスコード長𝑙の影響 14 平均・最悪ともに提案アルゴリズム(拡張)が高速
  8. 0 50 100 150 5 10 15 20 平均更新時間 [msec]

    ウィンドウサイズ𝑤 [×103] 提案アルゴリズム 提案アルゴリズム(拡張) 0 1000 2000 3000 5 10 15 20 最悪更新時間 [msec] ウィンドウサイズ𝑤 [×103] 提案アルゴリズム 提案アルゴリズム(拡張) 結果 – ウィンドウサイズ𝒘の影響 15 平均・最悪ともに提案アルゴリズム(拡張)が高速