Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[FIT22] Flareformer: Large-scale Solar Flare Prediction by Integrating Magnetograms and Sunspot Physical Features

[FIT22] Flareformer: Large-scale Solar Flare Prediction by Integrating Magnetograms and Sunspot Physical Features

慶應義塾⼤学 杉浦孔明研究室 B4 和田唯我 / Yuiga Wada

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 既存研究︓既存の太陽フレア予測モデルの予測性能は⼗分ではない タスク 代表的⼿法 概要 時系列予測 DeepAR [Salinias+, IJF20] ⾃⼰回帰型RNNにより時系列を予測 Informer

    [Zhou+, AAAI21] ProbSparse Attention機構を⽤いたTransformerベースの予測モデル 太陽フレア 予測 Deep Flare Net [Nishizuka+, ApJ18] 物理特徴量を⼊⼒とし⿊点レベルで太陽フレアを予測 Flare Transformer [兼⽥+, JSAI22] 磁場画像・物理特徴量を⼊⼒とするTransformerベースの予測モデル [兼⽥+, JSAI22] [Nishizuka+, ApJ18] [Zhou+, AAAI21] 4
  2. 問題設定︓太陽画像および物理特徴量を⽤いた太陽フレアの予測 • ⼊⼒ 1. ⿊点レベルの物理特徴量 太陽画像から抽出した物理特徴量 2. 磁場画像 1時間間隔で撮影された 太陽全体の磁場画像

    対象タスク︓時刻 t から24時間以内に発⽣する最⼤太陽フレアのクラスを予測 • 出⼒ • 太陽フレアクラス [X/M/C/O] クラス 発⽣頻度 規模・被害 X 低 ⾼ ⼤ ⼩ M C O 5
  3. 1% 8% 32% 59% X-class M-class C-class O-class タスクの特徴 1.

    ⼤きな被害をもたらす可能性のある X/Mクラスの太陽フレア予測が重要 2. X/Mクラスは発⽣頻度が低い 本分野における標準的な尺度で評価 • Gandin–Murphy–Gerrity score (GMGS) • True skill statistics (TSS) • Brier skill score (BSS) 問題設定︓クラスが不均衡であるため評価⽅法が重要 6 クラスの内訳(2010-2017)
  4. 提案⼿法 : Flareformer • ベースライン⼿法 Flare Transformer[兼⽥+, JSAI22] を拡張 •

    新規性 1. Informer [Zhou+, AAAI21] 注意機構を導⼊ 2. 磁場画像の特徴量抽出器として ConvNeXt[Liu+, CVPR22]を導⼊ 3. cRT[Kang+, ICLR20]に基づく 分類器の再学習機構を導⼊ → 後述 8
  5. 提案⼿法 : Flareformer • ベースライン⼿法 Flare Transformer[兼⽥+, JSAI22] を拡張 •

    ⼊⼒ 時刻 から に おける磁場画像および 90種類の物理特徴量 • 出⼒ 各フレアクラスの 予測確率を表す 4次元ベクトル 9
  6. 提案⼿法 : Flareformer Magnetogram Module • 時刻(𝑡 − 𝑘, 𝑡]における磁場画像を⼊⼒

    • ConvNeXt[Liu+, CVPR22]により磁場画像から特徴量を抽出 – 特徴量の次元は 𝑑 = 128 10
  7. 提案⼿法 : Flareformer Sunspot Feature Module • 時刻(𝑡 − 𝑘,

    𝑡]における物理特徴量を⼊⼒ • 90種類の物理特徴量から次元 𝑑 = 128 の特徴量を抽出 11
  8. 提案⼿法 : Flareformer Magnetogram Module + Sunspot Feature Module •

    抽出された特徴量を𝑁" ・ 𝑁# 層の transformer層によって時系列関係 をモデル化 • Informer [Zhou+, AAAI21] 注意機構 を導⼊ 12
  9. • 損失関数︓ を最⼩化するように学習 ◦ 損失関数︓クロスエントロピー損失,BSS損失, GMGS損失の加重和 Cross Entropy Loss BSS

    Loss GMGS Loss Cross Entropy Loss BSS Loss GMGS Loss サンプル数 クラス数 予測確率 正解ラベル 予測ラベルと正解ラベル間のクロスエントロピー誤差 Cross Entropy Loss BSS Loss GMGS Loss サンプル数 クラス数 予測確率 正解ラベル BSSは微分可能であるため,損失として直接⽤いることが可能 BSSを最⼤化する損失関数を導⼊する Cross Entropy Loss BSS Loss GMGS Loss サンプル数 クラス数 予測確率 正解ラベル ここで, はGMGSのスコア⾏列の成分 クラスのインバランスを考慮 13
  10. • 損失関数︓ を最⼩化するように学習 ◦ 損失関数︓クロスエントロピー損失,BSS損失, GMGS損失の加重和 Cross Entropy Loss BSS

    Loss GMGS Loss Cross Entropy Loss BSS Loss GMGS Loss サンプル数 クラス数 予測確率 正解ラベル Cross Entropy Loss BSS Loss GMGS Loss サンプル数 クラス数 予測確率 正解ラベル Cross Entropy Loss BSS Loss GMGS Loss サンプル数 クラス数 予測確率 正解ラベル 14 クラスのインバランスを考慮 ここで, はGMGSのスコア⾏列の成分 0.2 -0.3 -0.6 -1 -0.3 0.5 0.1 -0.3 -0.6 0.1 10 5 -1 -0.3 5 50 Cクラスのフレアを適切に予測 Xクラスのフレアを適切に予測 Xクラスのフレアを過⼩に予測
  11. Flareformer: cRTによる分類器の再学習機構を導⼊ • X/Mクラスは発⽣頻度が低いため サンプル数に応じたサンプリングが必要 → Xクラスへの過学習が発⽣ 1% 8% 32%

    59% X-class M-class C-class O-class クラスの内訳(2010-2017) Classifier Re-training (cRT)[Kang+, ICLR20] に基づく分類器の再学習機構を導⼊ 15
  12. 実験設定︓磁場画像と物理特徴量のセット • 2010-2017年における合計61315サンプル • 1h間隔の磁場画像と90種の物理特徴量のセット • 時系列交差検証[Tashman+, 00]をベースとした分割 Training Set

    Test Set 期間 サンプル数 期間 サンプル数 2010-2013 29247 2014 8127 2010-2014 37374 2015 8155 2010-2015 45529 2016 7795 2010-2016 53324 2017 7991 磁場画像 物理特徴量 17
  13. 定量的結果︓世界で初めて専⾨家を上回る予測性能を達成 GMGS ↑ TSS≧M ↑ BSS≧M ↑ DeFN [Nishizuka+, AsJ18]

    0.38±0.14 0.41±0.15 -0.02±0.78 DeFN-R [Nishizuka+, AsJ20] 0.30±0.06 0.28±0.16 0.04±0.98 Flare Transformer [兼⽥, JSAI22] 0.50±0.06 0.53±0.11 0.08±0.97 提案⼿法 0.50±0.19 0.53±0.11 0.22±0.68 専⾨家予測 [Kubo+, AsJ18][Murray, SW17] 0.48 0.50 0.16 • 全ての尺度において,専⾨家予測および, ベースライン⼿法であるDeFN, DeFN-R, Flare Transformer を上回る 18
  14. 定量的結果︓世界で初めて専⾨家を上回る予測性能を達成 GMGS ↑ TSS≧M ↑ BSS≧M ↑ DeFN [Nishizuka+, AsJ18]

    0.38±0.14 0.41±0.15 -0.02±0.78 DeFN-R [Nishizuka+, AsJ20] 0.30±0.06 0.28±0.16 0.04±0.98 Flare Transformer [兼⽥, JSAI22] 0.50±0.06 0.53±0.11 0.08±0.97 提案⼿法 0.50±0.19 0.53±0.11 0.22±0.68 専⾨家予測 [Kubo+, AsJ18][Murray, SW17] 0.48 0.50 0.16 • 全ての尺度において,専⾨家予測および, ベースライン⼿法であるDeFN, DeFN-R, Flare Transformer を上回る +0.20 +0.25 +0.18 19
  15. 定量的結果︓世界で初めて専⾨家を上回る予測性能を達成 GMGS ↑ TSS≧M ↑ BSS≧M ↑ DeFN [Nishizuka+, AsJ18]

    0.38±0.14 0.41±0.15 -0.02±0.78 DeFN-R [Nishizuka+, AsJ20] 0.30±0.06 0.28±0.16 0.04±0.98 Flare Transformer [兼⽥, JSAI22] 0.50±0.06 0.53±0.11 0.08±0.97 提案⼿法 0.50±0.19 0.53±0.11 0.22±0.68 専⾨家予測 [Kubo+, AsJ18][Murray, SW17] 0.48 0.50 0.16 • 全ての尺度において,専⾨家予測および, ベースライン⼿法であるDeFN, DeFN-R, Flare Transformer を上回る +0.14 20
  16. 定量的結果︓世界で初めて専⾨家を上回る予測性能を達成 GMGS ↑ TSS≧M ↑ BSS≧M ↑ DeFN [Nishizuka+, AsJ18]

    0.38±0.14 0.41±0.15 -0.02±0.78 DeFN-R [Nishizuka+, AsJ20] 0.30±0.06 0.28±0.16 0.04±0.98 Flare Transformer [兼⽥, JSAI22] 0.50±0.06 0.53±0.11 0.08±0.97 提案⼿法 0.50±0.19 0.53±0.11 0.22±0.68 専⾨家予測 [Kubo+, AsJ18][Murray, SW17] 0.48 0.50 0.16 • 全ての尺度において,専⾨家予測および, ベースライン⼿法であるDeFN, DeFN-R, Flare Transformer を上回る +0.02 +0.03 +0.06 21
  17. Ablation Studies︓提案⼿法が3つの尺度で最もバランスが取れている • Ablation (b): Image Feature ExtractorとしてFlare TransformerのCNNを使⽤ •

    Ablation (c): Informerの注意機構ではなくTransformerの注意機構を使⽤ BSS≧M ↑ GMGS ↑ TSS≧M ↑ (a) w/o cRT 0.046±0.96 0.440±0.21 0.574±0.13 (b) ConvNeXt →CNN 0.27±0.68 0.473±0.22 0.485±0.17 (c) Informer→ Transformer 0.30±0.64 0.544±0.19 0.492±0.12 (d) Ours 0.22±0.68 0.500±0.19 0.530±0.11 22
  18. Ablation Studies︓cRTの導⼊によりBSSが⾶躍的に向上 • Ablation (b): Image Feature ExtractorとしてFlare TransformerのCNNを使⽤ •

    Ablation (c): Informerの注意機構ではなくTransformerの注意機構を使⽤ cRTの導⼊により他の指標を⼤きく下げることなく, BSSが⾶躍的に向上 BSS≧M ↑ GMGS ↑ TSS≧M ↑ (a) w/o cRT 0.046±0.96 0.440±0.21 0.574±0.13 (b) ConvNeXt →CNN 0.27±0.68 0.473±0.22 0.485±0.17 (c) Informer→ Transformer 0.30±0.64 0.544±0.19 0.492±0.12 (d) Ours 0.22±0.68 0.500±0.19 0.530±0.11 +0.17 23
  19. Ablation Studies︓提案⼿法が最もバランスの取れた⼿法である • Ablation (b): Image Feature ExtractorとしてFlare TransformerのCNNを使⽤ •

    Ablation (c): Informerの注意機構ではなくTransformerの注意機構を使⽤ 提案⼿法がBSS・GMGS・TSSにおいて最もバランスの取れた⼿法となっている BSS≧M ↑ GMGS ↑ TSS≧M ↑ (a) w/o cRT 0.046±0.96 0.440±0.21 0.574±0.13 (b) ConvNeXt →CNN 0.27±0.68 0.473±0.22 0.485±0.17 (c) Informer→ Transformer 0.30±0.64 0.544±0.19 0.492±0.12 (d) Ours 0.22±0.68 0.500±0.19 0.530±0.11 24
  20. まとめ ü Flare Transformerを拡張した Flareformerを提案 ü 特徴量抽出のため, Informer注意機構 およびConvNeXtを導⼊し, またクラス

    の不均衡性に対処するためcRTを導⼊ ü その結果, 全ての尺度において専⾨家 予測および, ベースライン⼿法を上回 る性能を記録 26
  21. 評価尺度︓ True Skill Statistics (TSS) / Brier skill score (BSS)

    サンプル数 クラス数 予測確率 正解ラベル 31