Upgrade to Pro — share decks privately, control downloads, hide ads and more …

時系列予測にTransformerは有効か?

 時系列予測にTransformerは有効か?

AAAI2023「Are Transformers Effective for Time Series Forecasting?」と、HuggingFace「Yes, Transformers are Effective for Time Series Forecasting (+ Autoformer)」の紹介です。

fumihiko takahashi

September 21, 2023
Tweet

More Decks by fumihiko takahashi

Other Decks in Technology

Transcript

  1. AI 2 項目 01|近年の時系列予測の研究 02|「Are Transformers Effective for Time Series

    Forecasting?」の紹介 04|まとめ・感想 03|「Yes, Transformers are Effective for Time Series Forecasting (+ Autoformer)」 の紹介
  2. AI 4 • Transformerを応用した研究が盛ん ◦ LogTrans (NeurIPS 2019) ◦ Informer

    (AAAI 2021 Best paper) ◦ Autoformer (NeurIPS 2021) ◦ Pyraformer (ICLR 2022 Oral) ◦ Triformer (IJCAI 2022) ◦ FEDformer (ICML 2022) • 精度向上や計算量削減が主眼 近年のTransformerを使った時系列予測の研究
  3. AI 6 • LogTrans (NeurIPS 2019) ◦ 対数スケールで参照するポイントを間引く • Informer

    (AAAI 2021) ◦ attention時に分布の逸脱が大きい行だけを残す ◦ attentionの後にConv+MaxPoolを入れて系列長を半分にする • Pyraformer (ICLR 2022) ◦ ピラミッド型に参照ポイントを限定 self-attentionのO(L^2)の計算量を削減する工夫 文献:https://arxiv.org/pdf/1907.00235.pdf 文献:https://openreview.net/pdf?id=0EXmFzUn5I
  4. AI 7 • Autoformer (NeurIPS 2021) • FEDformer (ICML 2022)

    ◦ 季節性成分とトレンド成分を分離して扱う ◦ 季節性成分に対してフーリエ変換を使って周波数領域でattentionを行う 時系列分解の導入 文献:https://arxiv.org/pdf/2106.13008.pdf
  5. AI 9 • AAAI 2023でacceptされた論文, Ailing Zeng et al. •

    概要 ◦ 新たなベースラインとして 恥ずかしいほどシンプルな1層の線形モデルを紹介 ◦ Transformerベースのモデルと比較し優れた精度 ◦ 既存のTransformerベースのモデルの様々な側面に対する実験 Are Transformers Effective for Time Series Forecasting? 文献:https://ojs.aaai.org/index.php/AAAI/article/view/26317/26089
  6. AI 10 • Linear ◦ 1層の線形モデル ◦ 変数間で同じweightを共有 • DLinear

    ◦ 時系列分解を行う線形モデル ▪ 移動平均によってトレンド成分と季節性成 分に分ける ▪ それぞれの成分ごとに線形モデルで 予測し、足し合わせたものが最終的 な予測結果 • NLinear ◦ 分布変化を捉える線形モデル ▪ 入力データの最後の値で系列データを引く ▪ 線形モデルの予測結果に最後の値を足す 恥ずかしいほどシンプルな1層の線形モデル
  7. AI 11 • データセット ◦ ETT (Electricity Transformer Temperature), Traffic,

    Electricity, Weather, ILI, Exchange-Rate • 評価指標 ◦ MSE, MAE • 比較対象 ◦ 線形モデル ▪ Linear, NLinear, DLinear ◦ Transformerベース ▪ FEDformer, Autoformer, Informer, Pyraformer ◦ ルールベース ▪ Repeat(入力系列の最後の値を繰り返す) 実験設定
  8. AI 13 • 実験 ◦ Electricityデータセット ◦ 96点を入力にして192点を予測 • 結果

    ◦ Transformerはスケールとバイア スを捉えるのに失敗している ▪ トレンドを捉えるのが苦手 定性的な比較
  9. AI 14 実験 • 各モデルで入力サイズを変化させ評価 結果 • Linearモデルは入力サイズを広げると予測誤差が 減少 •

    Transformerベースのモデルは入力サイズを広げ ても予測誤差が一定 or 劣化 • →ノイズに対してoverfitしてしまう Transformerは長い入力系列の関係を抽出できるか?
  10. AI 15 • 実験 ◦ 時系列予測で学習できるのは「トレンドと周期性のみ」ではないか ◦ 入力を直近のデータ、過去のデータそれぞれで差があるか ▪ Close:

    予測対象の直前の96件 ▪ Far: 予測対象の直前96件手前から96件 • 結果 ◦ Transformerベースの性能は低下はわずか ▪ 隣接する時系列データから同様の時間情報のみ(トレンドと周期性)を抽出している ◦ →周期性やトレンドを捉えるために多数のパラメータは不要のはず ◦ →パラメータが多すぎるとoverfitの原因になる 時系列予測モデルは何を学習するのか? Close input Far input Prediction target
  11. AI 16 • 実験 ◦ Informerを段階的にLinearモデルに近づける ▪ Att.-Linear:self-attentionをFC層に変更 ▪ Embed

    + Linear:embedding layerとFC層のみ ▪ Linear:FC層のみ • 結果 ◦ Linearに近づけるほど段階的に予測誤差が減少 時系列予測にself-attentionが効果的か?
  12. AI 17 • 実験 ◦ 入力系列をランダムに入れ替えた時の精度劣化を確認 ▪ Shuf. :シャッフル ▪

    Half-Ex.:ランダムに前後半を入れ替える • 結果 ◦ Linearが精度劣化するのに対して、Transfomerベースのモデルは精度が維持 ▪ ただしETTデータセットではFEDformerとAutoformerは劣化 • 季節性成分を周波数領域で扱うため Transformerは順番を保存できるのか?
  13. AI 18 • 実験 ◦ Trafficデータセットに対して学習データサイズを変えて比較 ▪ Ori.:17,544*0.7 時間 ▪

    Short:8,760 時間 (1年分) • 結果 ◦ Shortの方が予測誤差が少ない ▪ 通年のデータの方が明確な時間的特徴を維持しているからか ◦ 学習データサイズが予測誤差大の理由ではない 学習データサイズがTransformerの予測誤差大の要因か? Ori. Short おそらく直近1年のデータだけを残す減らし 方をしている
  14. AI 19 • 実験 ◦ 計算量 O(L^2) を削減するための工夫をしているが、本当に推論 時間とメモリ削減に効果があるのか •

    結果 ◦ ほとんどのTransformerが、シンプルなTransoformerより推論 時間が長く、メモリ使用量が多い ◦ → 追加モジュールがコスト増になっている 効率性は本当に最優先事項か?
  15. AI 20 03 「Yes, Transformers are Effective for Time Series

    Forecasting (+ Autoformer)」の紹介
  16. AI 21 • 「Are Transformers Effective for Time Series Forecasting?」に対する🤗hugging

    faceのブログ • 概要 ◦ 経験的にTransformerは時系列予測に効果的 ◦ DLinearと比較実験をして単変量モデルとして学習した Transformerベースのモデルの方が優れている Yes, Transformers are Effective for Time Series Forecasting (+ Autoformer) 文献:https://huggingface.co/blog/autoformer
  17. AI 25 • AAAIの論文 ◦ Transfomerベースのモデルはシンプルな線形モデルに劣る ◦ パラメータが多すぎてoverfitしている可能性 ◦ 時間的順序は保持できていない

    • 🤗のブログ ◦ 多変量モデルではなく単変量モデルにすることで線形モデルより 優れた予測誤差 ◦ 多変量モデルで精度が振るわないのは、時系列データセットが小 さいことが問題 まとめ
  18. AI 26 • 🤗ブログは評価指標がMASE(Mean Absolute Scaled Error) ◦ MAEを学習データ内の変化量で正規化したもの ◦

    z_{t}: 学習データ ◦ p: 季節性 • データの系列長が異なる ◦ AAAIの論文: ▪ input: 96~720 ▪ prediction: 96~720 ◦ 🤗 ブログ: ▪ input: 48 ▪ prediction: 24 AAAIの論文 と 🤗 ブログの違い 優劣に影響しうる 優劣に影響なし