Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
多次元ストリーミング時系列データの効率的なモチーフモニタリングアルゴリズム / Monitor...
Search
Shinya Kato
November 12, 2019
Research
0
27
多次元ストリーミング時系列データの効率的なモチーフモニタリングアルゴリズム / Monitoring Motif on Multi-dimensional Streaming Time-series, presented at DPSWS 2019
Shinya Kato
November 12, 2019
Tweet
Share
More Decks by Shinya Kato
See All by Shinya Kato
pg_bigmをRustで実装する(第50回PostgreSQLアンカンファレンス@オンライン 発表資料)
shinyakato_
0
160
Discord Monitoring for Streaming Time-series, presented at DEXA 2019
shinyakato_
0
25
ストリーミング時系列データの効率的なディスコードモニタリングアルゴリズム / Discord Monitoringfor Streaming Time-series, presented at DEIM 2019
shinyakato_
0
20
Monitoring Range Motif on Streaming Time-Series, presented at DEXA 2018
shinyakato_
0
12
ストリーミング時系列データの効率的なモチーフモニタリングアルゴリズム / Monitoring Range Motif on Streaming Time-Series, presented at DICOMO 2018
shinyakato_
0
120
Other Decks in Research
See All in Research
【NLPコロキウム】Stepwise Alignment for Constrained Language Model Policy Optimization (NeurIPS 2024)
akifumi_wachi
3
490
アプリケーションから知るモデルマージ
maguro27
0
240
Elix, CBI2024, スポンサードセッション, Molecular Glue研究の展望:近年の進展とAI活用の可能性
elix
0
120
AIトップカンファレンスからみるData-Centric AIの研究動向 / Research Trends in Data-Centric AI: Insights from Top AI Conferences
tsurubee
3
1.1k
ベイズ的方法に基づく統計的因果推論の基礎
holyshun
0
750
Weekly AI Agents News! 11月号 プロダクト/ニュースのアーカイブ
masatoto
0
280
LLM 시대의 Compliance: Safety & Security
huffon
0
540
CUNY DHI_Lightning Talks_2024
digitalfellow
0
350
CoRL2024サーベイ
rpc
1
1.4k
新規のC言語処理系を実装することによる 組込みシステム研究にもたらす価値 についての考察
zacky1972
1
310
[輪講] Transformer Layers as Painters
nk35jk
4
620
Large Vision Language Model (LVLM) に関する最新知見まとめ (Part 1)
onely7
23
5.6k
Featured
See All Featured
For a Future-Friendly Web
brad_frost
176
9.5k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
3
270
How GitHub (no longer) Works
holman
312
140k
Docker and Python
trallard
43
3.2k
Java REST API Framework Comparison - PWX 2021
mraible
28
8.4k
BBQ
matthewcrist
85
9.4k
Building Your Own Lightsaber
phodgson
104
6.2k
The Pragmatic Product Professional
lauravandoore
32
6.4k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
6
520
Gamification - CAS2011
davidbonilla
80
5.1k
Optimising Largest Contentful Paint
csswizardry
33
3k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.1k
Transcript
多次元ストリーミング時系列データの 効率的なモチーフモニタリングアルゴリズム 加藤 慎也,天方 大地,原 隆浩 大阪大学 大学院情報科学研究科 マルチメディア工学専攻 原研究室
研究背景(1/3) ⚫近年,多くのストリーミング時系列データが生成 1 家電の消費電力 温室効果ガスの排出量 心電図 異常検知 環境モニタリング 不整脈の発見 分析
研究背景(2/3) ⚫モチーフ - 時系列データを分析する最も重要な技術の一つ - 時系列データの中に繰り返し現れるパターン 2 温室効果ガスの排出量の時系列データ 時系列データの特徴がわかり,予測やイベント検知などに応用可能
研究背景(3/3) ⚫近年,多くの多次元ストリーミング時系列データが生成 3 加速度センサ(3軸),ジャイロセンサ(3軸) の時系列データ データセンタのCPU使用率,メモリ使用率, ディスクI/Oの時系列データ モチーフのみを保存・送信することで 時系列データの特徴を保持したまま, ストレージや通信量を削減
過去のモチーフと現在のモチーフを 比較することで,故障予測や異常検知に活用
問題定義 ⚫多次元ストリーミング時系列データのモチーフモニタリング - 時々刻々と新しい値が追加 - 新しい値が追加されるたびモチーフを更新 4 ⋮ ⋮ モチーフ
𝑡(1) 𝑡(2) 𝑡(𝑑) ⋮ 値が時々刻々と追加 モチーフを常に更新
予備知識(1/3) ⚫1次元 - 時系列データ 𝑡 = 𝑡 1 , 𝑡
2 , ⋯ - サブシーケンス 𝑠𝑝 = 𝑡 𝑝 , 𝑡 𝑝 + 1 , ⋯ , 𝑡 𝑝 + 𝑙 − 1 ⚫多次元 - 多次元時系列データ 𝒕 = 𝑡(1) 𝑡(2) ⋮ 𝑡(𝑑) - 多次元サブシーケンス𝒔𝒑 = 𝑠𝑝 (1) 𝑠𝑝 (2) ⋮ 𝑠𝑝 (𝑑) 5 時間 𝑡 𝑝 𝑙 𝑠𝑝 時間 𝑡(1) 𝑝 𝑙 𝑡(2) 𝑡(𝑑) 𝒔𝒑 ⋮ ⋮
予備知識(2/3) ⚫1次元サブシーケンス間の距離 - 𝑧正規化ユークリッド距離(正規化したサブシーケンス間のユークリッド距離) ⚫𝑘次元におけるサブシーケンス間の距離𝑑 𝑘 (𝒔𝒑 , 𝒔𝒒 )
- 𝑑次元のサブシーケンス𝒔𝒑 ,𝒔𝒒 ,および𝑘 (< 𝑑)が与えられたとき, 各次元のサブシーケンス間の距離が𝑘番目に小さい距離 6 正規化 ユークリッド 距離 𝑠𝑝 (1) 𝑠𝑝 (2) 𝑠𝑝 (3) 𝑠𝑞 (1) 𝑠𝑞 (2) 𝑠𝑞 (3) 1.3 8.4 2.1 𝑠𝑝 (4) 𝑠𝑞 (4) 3.3 𝑑 3 𝒔𝒑 , 𝒔𝒒 = 3.3 𝑘番目に 小さい距離
予備知識(3/3) ⚫類似サブシーケンス - 𝑑 𝑘 𝒔𝒑 , 𝒔𝒒 ≤ 2𝑙
1 − 𝜃 ⟺ 𝒔𝒑 と𝒔𝒒 は類似サブシーケンス • 𝜃 :類似度の閾値 • 𝑙 :モチーフ長 ⚫スコア - 類似サブシーケンスの数 ⚫モチーフ - スコアが最大のサブシーケンス 7 𝒔𝒑 𝒔𝒒 𝒔𝒓 ≤ 2𝑙 1 − 𝜃 ≤ 2𝑙 1 − 𝜃 𝑠𝑐𝑜𝑟𝑒 𝒔𝒑 = 2
ベースラインアルゴリズム ⚫生成されるサブシーケンスと過去の全サブシーケンスと距離計算 - 例)3次元時系列データから長さ5のモチーフをモニタリング 8 新しい値を 取得 多大な時間がかかりリアルタイム性を保証できない.→高速化が必要 生成されるサブシーケンス 距離計算
𝑙 提案アルゴリズム:概要 ⚫アイデア - 𝑘次元におけるサブシーケンス間の距離計算を高速化するには, 各次元における距離計算回数を削減すれば良い. - モチーフ(最大スコアのサブシーケンス)をモニタリングするため, 新たに生成される𝒔𝒏 のスコアがモチーフのスコアを下回れば,𝒔𝒏
はモチーフにならない. ⚫提案アルゴリズムの流れ 9 次元1 ⋯ 𝑙次元空間 次元𝑑 𝑙次元空間 ⋮ 次元1 次元𝑑 各次元ごとにクラスタリング 三角不等式により距離の下界値を計算 𝑠𝑛 (𝑖)
提案アルゴリズム:クラスタリング ⚫中心のサブシーケンスを設定 ⚫それ以外のサブシーケンスは最も近い中心のクラスタに所属 ⚫クラスタ内の点は中心との距離の降順にソート 10
提案アルゴリズム:三角不等式による距離の下界値の取得 ⚫新しいサブシーケンス𝑠𝑛 (𝑖)と中心サブシーケンス𝑠𝑝 (𝑖)と距離計算 ⚫クラスタ内のサブシーケンス𝑠𝑞 (𝑖)と𝑠𝑛 (𝑖)と𝑠𝑝 (𝑖)に三角不等式を適用すると, 𝑑(𝑠𝑛 (𝑖),
𝑠𝑞 (𝑖))の下界値が𝑂(1)で計算可能 ⚫下界値が閾値 2𝑙 1 − 𝜃 を超えた時点で計算を打ち切り 11 𝑠∙ 𝑖 下界値 𝑠 𝑏 𝑖 𝑠𝑐 𝑖 𝑠𝑎 𝑖 𝑠 𝑑 𝑖 𝑠𝑒 𝑖 𝑠𝑝 (𝑖) 𝑠 𝑏 (𝑖) 𝑠𝑎 (𝑖) 𝑠 𝑑 (𝑖) 𝑠𝑐 (𝑖) 𝑠𝑒 (𝑖) 𝑠𝑛 (𝑖) |𝑑(𝑠𝑛 𝑖 , 𝑠𝑝 𝑖 ) − 𝑑(𝑠𝑝 𝑖 , 𝑠 𝑏 (𝑖))| ≤ 2𝑙 1 − 𝜃 |𝑑(𝑠𝑛 𝑖 , 𝑠𝑝 𝑖 ) − 𝑑(𝑠𝑝 𝑖 , 𝑠𝑐 (𝑖))| > 2𝑙 1 − 𝜃 × × ×
提案アルゴリズム:スコアの上界値の取得 ⚫各次元に対して三角不等式による下界値の計算を行った後, 𝑘個以上共通するサブシーケンスの数がスコアの上界値 12 𝑠𝑛 (𝑖)と類似する可能性のあるサブシーケンス 次元1 𝑠𝑎 (1), 𝑠
𝑏 (1), 𝑠𝑐 (1), 𝑠 𝑑 (1), 𝑠𝑒 (1), 𝑠 𝑓 (1), 𝑠𝑔 (1) 次元2 𝑠𝑎 (2), 𝑠𝑒 (2), 𝑠 𝑓 (2), 𝑠𝑔 (2), 𝑠 ℎ (2), 𝑠 𝑖 (2) ⋮ ⋮ 次元𝑑 𝑠𝑎 (𝑑), 𝑠 𝑓 (𝑑), 𝑠𝑔 (𝑑), 𝑠 ℎ (𝑑), 𝑠 𝑖 (𝑑) 𝑘個以上共通 𝒔𝒂 , 𝒔𝒇 , 𝒔𝒈 , 𝒔𝒉 , 𝒔𝒊 𝒔𝒏 のスコアの 上界値は5 𝒔𝒏 のスコアの上界値<モチーフのスコア⇒ 𝒔𝒏 はモチーフにならない.
評価実験 ⚫データセット - Cricket :加速度センサの多次元時系列データ(6次元) - EigenWorms :線虫の動きの多次元時系列データ(6次元) ⚫パラメータ -
𝒕 (時刻) :1,000~100,000 - 𝑙 (モチーフ長) :50, 100, 150, 200 - 𝜃 (閾値) :0.75, 0.8, 0.85, 0.9, 0.95 - 𝑘 (次元数) :2, 3, 4 ⚫評価手法 - ベースラインアルゴリズム - 提案アルゴリズム 13
評価結果:時刻 𝒕 の影響 14 0 2000 4000 6000 8000 10000
0 25000 50000 75000 100000 更新時間 [msec] |𝒕| baseline MMM 0 2000 4000 6000 8000 10000 0 25000 50000 75000 100000 更新時間 [msec] |𝒕| baseline MMM EigenWorms Cricket proposed proposed 提案アルゴリズムは距離計算回数が少ないため高速
0 20000 40000 60000 80000 50 100 150 200 合計更新時間
[sec] 𝑙 baseline MMM 0 20000 40000 60000 80000 50 100 150 200 合計更新時間 [sec] 𝑙 baseline MMM 評価結果:モチーフ長𝒍の影響 15 EigenWorms Cricket proposed proposed 𝒍の増加によって距離計算時間が増加するため,更新時間も増加
評価結果:閾値𝜽の影響 16 0 2000 4000 6000 8000 10000 0 25000
50000 75000 100000 更新時間 [msec] |𝒕| baseline MMM 0 2000 4000 6000 8000 10000 0 25000 50000 75000 100000 更新時間 [msec] |𝒕| baseline MMM EigenWorms Cricket 0 10000 20000 30000 40000 50000 0.75 0.8 0.85 0.9 0.95 合計更新時間 [sec] 𝜃 baseline MMM 0 10000 20000 30000 40000 50000 0.75 0.8 0.85 0.9 0.95 合計更新時間 [sec] 𝜃 baseline MMM proposed proposed 𝜽の増加によって距離の閾値が小さくなり,早期に距離計算の打ち切りが可能
評価結果:次元数𝒌の影響 17 0 2000 4000 6000 8000 10000 0 25000
50000 75000 100000 更新時間 [msec] |𝒕| baseline MMM 0 2000 4000 6000 8000 10000 0 25000 50000 75000 100000 更新時間 [msec] |𝒕| baseline MMM EigenWorms Cricket 0 10000 20000 30000 40000 50000 2 3 4 合計更新時間 [sec] 𝑘 baseline MMM 0 10000 20000 30000 40000 50000 2 3 4 合計更新時間 [sec] 𝑘 baseline MMM proposed proposed 𝒌の増加によって,𝒌次元におけるサブシーケンス間の距離が大きくなり, 全体的にスコアが小さくなり正確な距離計算回数が減少
まとめ ⚫多次元ストリーミング時系列データのモチーフモニタリング - 距離の小さいサブシーケンス同士をクラスタリング - 三角不等式による距離の下界値の取得 - 評価実験から提案アルゴリズムの有効性を確認 18