Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ベクトル型スーパーコンピュータ「AOBA-S」の性能評価

Keichi Takahashi
September 26, 2023

 ベクトル型スーパーコンピュータ「AOBA-S」の性能評価

高橋 慧智, 藤本 壮也, 長瀬 悟, 磯部 洋子, 下村 陽一, 江川 隆輔, 滝沢 寛之, ベクトル型スーパーコンピュータ「AOBA-S」の性能評価, 研究報告ハイパフォーマンスコンピューティング(HPC), 2023-HPC-191(1), 2023年9月.

http://id.nii.ac.jp/1001/00227704/

Keichi Takahashi

September 26, 2023
Tweet

More Decks by Keichi Takahashi

Other Decks in Science

Transcript

  1. ⾼橋 慧智1, 藤本 壮也2, ⻑瀬 悟2, 磯部 洋⼦2, 下村 陽⼀1,

    江川 隆輔3, 滝沢 寛之1 1東北⼤学サイバーサイエンスセンター 2⽇本電気株式会社 3東京電機⼤学 ベクトル型スーパーコンピュータ「AOBA-S」の 性能評価 第191回HPC研究会@東北⼤学 1
  2. 概要 • サイバーサイエンスセンターでは2023年8⽉よりスーパーコンピュータAOBA-S の本格運⽤を開始 • AOBA-SはNEC製の最新世代Vector Engine (VE30) プロセッサを搭載した, 世界最⾼性能のベクトル型スーパーコンピュータ

    (2023年9⽉現在) • 本発表では,サービス提供開始前に実施した以下の性能評価の結果を報告 • VE30プロセッサの単体性能 • システム全体としての性能 • 実アプリ性能 (SPEChpc) 第191回HPC研究会@東北⼤学 2
  3. AOBA-1.5の概要 第191回HPC研究会@東北⼤学 3 InfiniBand NDR 200G InfiniBand HDR 200G Ethernet

    10G AOBA-S AOBA-A AOBA-B AOBA-A/B ストレージ AOBA-S ストレージ 21.05 PFLOP/s 9.97 PB/s 1.48 PFLOP/s 893 TB/s 4.5 PB Lustre 2 PB ScaTeFS 279 TFLOP/s 29 TB/s NEC SX-AT B401-8 x72 NEC LX406Rz-2 x68 DDN SFA7990XE DDN ES400NVX2 NEC SX-AT C401-8 x504
  4. SX-Aurora TSUBASA • SX-Aurora TSUBASA (SX-AT) • x86であるVector Host (VH)とSXシリーズを継承するベクト

    ルプロセッサVector Engine (VE) からなるヘテロジニアスな システム • アプリはVE上で実⾏され,システムコールをホストへ「オフ ロード」する実⾏⽅式 • Vector Engine (VE) • メモリ律速なアプリを対象とし,ベクトルアーキテクチャと⾼ 帯域幅メモリを特徴とするプロセッサ • 標準プログラミングモデル (MPI+OpenMP) によってプログラ ム可能 • ⾼度な⾃動ベクトル化機能を備えたC/C++およびFortranコン パイラが利⽤可能 第191回HPC研究会@東北⼤学 4 Vector Engine Vector Host (x86) Vector Engine PCIe Switch … InfiniBand HCA https://www.nec.com/en/global/solutions/hpc/s x/vector_engine.html RDMA Syscalls
  5. AOBA-Sの構成 第191回HPC研究会@東北⼤学 5 ノード単体 システム全体 VE数 8 4,032 VH数 1

    504 VE理論演算性能 39.28 TFLOP/s 19.79 PFLOP/s VEメモリ帯域幅 19.60 TB/s 9.87 PB/s VEメモリ容量 768 GB 378 TB VH理論演算性能 2.50 TFLOP/s 1.26 PFLOP/s VHメモリ帯域幅 0.20 TB/s 0.1 PB/s VHメモリ容量 256 GB 126 TB 相互結合網 InfiniBand NDR 200G ストレージ Lustre 4.4 PB VE 30 AMD EPYC 7763 PCIe SW IB NDR 200G IB NDR 200G VE 30 VE 30 PCIe SW VE 30 VE 30 PCIe SW VE 30 VE 30 PCIe SW VE 30 ノード構成
  6. AOBA-Sの相互結合網とストレージ • フルバイセクションかつノン ブロッキングの2段Fat-treeト ポロジによって計算ノード, ストレージ,各種サーバを接 続 • 計4.4 PBのLustreストレージ

    第191回HPC研究会@東北⼤学 6 NDR Switch … NDR Switch NDR Switch … NDR Switch NDR Switch NDR Switch x16 x16 x2 HCA HCA HCA HCA … HCA HCA … 32 VHs (64 HCAs) 504 VHs (1,008 HCAs) Storage Frontend Servers
  7. VE30プロセッサのアーキテクチャ 第191回HPC研究会@東北⼤学 7 Main Memory (96 GB) Last-Level Cache (64

    MB) Network on Chip (2D Mesh) SPU VPU L3 Cache (2 MB) 6.4 TB/s 2.45 TB/s 410 GB/s 410 GB/s 16コア Core Core Core Core Core Core LLC LLC Core Core Core Core Core Core Core Core Core Core HBM2E HBM2E HBM2E HBM2E HBM2E HBM2E …
  8. VE20からの強化点 • コア専有L3キャッシュ • L3キャッシュはソフトウェア制御に よってバイパスすることが可能 • LLC内演算器 • 各LLCバンクが加算器を内蔵すること

    でリスト総和演算をLLC内で実⾏可能 • FP32演算性能の強化 • VE20ではFP32データが8バイトアライ ンされている必要があったが,4バイト アラインに緩和 第191回HPC研究会@東北⼤学 8 VE Type 20A (10コアモデル) VE Type 30A コア数 10 16 FP64演算性能 [TFLOP/s] 3.07 4.91 メモリ帯域幅 [TB/s] 1.53 2.45 メモリ容量 [GB] 48 96 LLC帯域幅 [TB/s] 3.0 6.4 LLC容量 [MB] 16 64 1.6x 1.6x 1.6x 2x 2.1x 4x
  9. ⽐較対象のプロセッサ 第191回HPC研究会@東北⼤学 10 NEC VE Type 20B NEC VE Type

    30A Fujitsu A64FX Intel Xeon Platinum 8368 NVIDIA A100 80GB PCIe FP64演算性能 (コア) [GFLOP/s] 307 307 70 83.2 181 w/ TC 90 w/o TC コア数 8 16 48 36 108 FP64演算性能 (ソケット) [TFLOP/s] 2.4 4.9 3.3 3.1 19.5 w/ TC 9.7 w/o TC LLC帯域幅 [TB/s] 3.0 6.4 3.6 3.21 4.91 LLC容量 [MB] 16 64 32 57 40 メモリ帯域幅 [TB/s] 1.53 2.45 1.024 0.204 1.935 メモリ容量 [MB] 48 96 32 80 プロセスルール [nm] 16 7 7 10 7
  10. 基本性能の評価において⽤いたベンチマーク • HPL1: ピボット選択付LU分解によって密な連⽴⼀次⽅程式を求解する演算律速な ベンチマーク • BabelStream2: 実効メモリ帯域幅を計測するSTREAMベンチマークを様々なプロ グラミングモデルで実装したベンチマーク •

    HPCG1: 疎な連⽴⼀次⽅程式を幾何学的マルチグリッド前処理を⽤いた共役勾配 法によって求解するメモリ律速なベンチマーク • 姫野ベンチ: ポワソン⽅程式をヤコビ法によって求解するメモリ律速なベンチ マーク • 東北⼤カーネル: ユーザアプリより抽出した6種のカーネル 第191回HPC研究会@東北⼤学 11
  11. 基本性能 (HPLとBabelStream) 第191回HPC研究会@東北⼤学 12 0 2 4 6 8 10

    12 14 VE20 VE30 A64FXIceLake A100 40GB A100 80GB 0 20 40 60 80 100 TFLOP/s Efficiency [%] Performance Efficiency 2.13 4.43 2.78 1.83 11.8 12.5 86% 90% 82% 57% 60% 64% HPL ⾼い演算性能 スロットリング による効率低下 0 500 1000 1500 2000 VE20 VE30 A64FXIceLake ×2 A100 40GB A100 80GB 0 20 40 60 80 100 GB/s Efficiency [%] Performance Efficiency 1230 1793 826 163 1410 1657 80% 72% 81% 80% 91% 86% 最も⾼いメモ リ帯域幅 BabelStream
  12. 基本性能 (HPCGと姫野ベンチ) 第191回HPC研究会@東北⼤学 13 0 100 200 300 400 500

    600 700 800 900 VE20 VE30 A64FXIceLake A100 40GB A100 80GB 0 5 10 15 20 GFLOP/s Efficiency [%] Performance Efficiency 388 837 342 75 553 634 16% 17% 10% 2.3% 2.8% 3.2% 0 50 100 150 200 250 300 VE20 VE30 A64FX IceLake A100 40GB A100 80GB 0 1 2 3 4 5 6 7 GFLOP/s Efficiency [%] Performance Efficiency 139 258 106 29 222 259 5.6% 5.2% 3.1% 0.94% 2.2% 2.6% HPCG 姫野ベンチマーク A100 80 GBと同等 最も⾼い
  13. 東北⼤カーネル集 第191回HPC研究会@東北⼤学 14 科学分野 律速要因 VE30/VE20 Earthquake 地震学 メモリ帯域幅 1.56x

    Turbulent Flow 流体⼒学 LLC帯域幅 2.33x Antenna 電波⼯学 メモリ帯域幅 1.77x Land Mine 電波⼯学 メモリ帯域幅 1.92x Turbine 流体⼒学 レイテンシ 2.40x Plasma プラズマ科学 レイテンシ 2.41x サイバーサイエンスセンターのユーザアプリから抽出した6種のカーネル メモリ・LLC 帯域幅の向上 L3CとLLC帯域 幅の向上 L3Cによるレイ テンシの短縮 VE30 HW性能向上率 メモリ帯域幅: 1.60x LLC帯域幅: 2.13x 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 Earthquake Turbulent Flow Antenna Land Mine Turbine Plasma TFLOP/s VE20 VE30 w/o L3 cache VE30 w/ L3 cache
  14. マルチノード性能 (HPL, HPCG) 504 VH を⽤いた全系実⾏では • HPL: 16.33 PFLOP/s

    (効率82.4%) • HPCG: 913.1 TFLOP/s (効率4.61%) • 2023年6⽉版Top500リストではHPL は国内5位,HPCGは国内2位に相当 • 2023年11⽉版Top500リスト登録に 向けてパラメータ調整等のチューニ ングを実施予定 第191回HPC研究会@東北⼤学 16 10 100 1000 10000 100000 100 0 20 40 60 80 100 Performance [TFLOP/s] Efficiency [%] # of VHs HPL Performance HPCG Performance HPL Efficiency HPCG Efficiency
  15. MPI通信性能 第191回HPC研究会@東北⼤学 17 VE 30 AMD EPYC 7763 PCIe SW

    IB NDR 200G IB NDR 200G VE 30 VE 30 PCIe SW VE 30 VE 30 PCIe SW VE 30 VE 30 PCIe SW VE 30 VE 30 AMD EPYC 7763 PCIe SW IB NDR 200G IB NDR 200G VE 30 VE 30 PCIe SW VE 30 VE 30 PCIe SW VE 30 VE 30 PCIe SW VE 30 InfiniBand NDR Switch ③同⼀PCIe スイッチ配下 ②同⼀ノード配下 ①同⼀IBスイッチ配下 ④同⼀IBスイッチ配下 (VH間)
  16. MPI通信性能の測定結果 第191回HPC研究会@東北⼤学 18 1 10 100 1000 1 10 100

    1000 10000 100000 1x106 Latency [µs] Message size [B] VE-VE (same rack) VE-VE (same node) VE-VE (same PCIe switch) VH-VH (same rack) 0.1 1 10 100 1000 10000 100000 1 10 100 1000 10000 100000 1x106 Bandwidth [MB/s] Message size [B] VE-VE (same rack) VE-VE (same node) VE-VE (same PCIe switch) VH-VH (same rack) • 同⼀PCIe SW配下: 1.51us • 同⼀ノード内: 1.88us • 同⼀ラック内: 3.87us GPU-awareなMPI とほぼ同等 OSU Micro Benchmark 7.2,NEC MPI 3.4.0を使⽤ • 同⼀PCIe SW配下: 23.1 GB/s • 同⼀ノード内: 22.7 GB/s • 同⼀ラック内: 23.6 GB/s 遅延 (osu_latency) 帯域幅 (osu_bw)
  17. ストレージ性能 (iorとmdtest) 第191回HPC研究会@東北⼤学 19 20 40 60 80 100 120

    140 160 180 200 100 1000 Throughput [KIOps] # of Processes File creation File stat File removal 5 10 15 20 25 30 35 40 45 50 100 1000 Throughput [GB/s] # of Processes Write Read 読み書き性能 メタデータ性能 ior 3.3.0を⽤い,1VEにつきior/mdtestを1プロセス起動し,1ファイル/プロセスの条件で計測. 読み書き共にページキャッシュの効果を排除するよう設定.
  18. SPEChpc 2021 • SPECにより開発されているHPC分野のベンチマーク集 • 実⾏条件: • VE20/30,A64FX ,IceLake-SPではMPI+OpenMP,A100では MPI+OpenACCを使⽤

    • 全てのベンチマークはソースコード改変なしで実⾏ • 問題サイズ: • Tiny (9ベンチ,60GB程度のメモリ使⽤量) • 実⾏可能な最低ソケット数で実⾏し,使⽤したソケット数で性能を正規化 • Large (6ベンチ, 14.5TB程度のメモリ使⽤量) • 先⾏研究[1]において⾏われたTACC Frontera (Intel Xeon Platinum 8280 2 基) およびJUWELS Booster (AMD EPYC 7402+NVIDIA A100 SXM4 40GB 4基) での測定結果と⽐較 • 性能指標: • ベースラインシステム (Haswellクラスタ) に対する⾼速化率を⽐較 第191回HPC研究会@東北⼤学 21 [1] Brunst et al., “First Experiences in Performance Benchmarking with the New SPEChpc 2021 Suites,” CCGrid 2022.
  19. SPEChpc 2021 tinyサイズの性能⽐較 • LBM, TeaLeaf, POT3DではVE30が最も性能が⾼い • CloverLeafとminiWeatherではVE30がA100に少し劣る •

    SPH-EXAとHPGMG-FVではVE30の性能が低い 第191回HPC研究会@東北⼤学 22 0 5 10 15 20 25 30 35 LBM TeaLeaf CloverLeaf POT3D SPH-EXA HPGMG-FV miniWeather Speedup over Baseline System VE20 x2 VE30 x1 A100 80GB x1 A100 40GB x2 A64FX x3 IceLake-SP x1
  20. SPEChpc 2021 tinyサイズの性能分析 • LBM, TeaLeaf, CloverLeaf, POT3D • メモリ律速でありVEが最も性能が⾼い

    • CloverLeafではギャザアクセスをともなうカーネルはA100より性能が低い • SPH-EXA • 8分⽊を⽤いた近傍粒⼦探索がベクトル化できない • 近傍粒⼦探索をホストCPUへオフロードすることにより⾼速化可能 • HPGMG-FV • 最内ループのループ⻑ (32回) がVEのベクトル⻑ (倍精度で256要素) に⽐べ短い • ループ⼀重化によりループ⻑を拡⼤させることで⾼速化可能 • miniWeather • メモリ律速なカーネルはA100より⾼速だが,演算律速なカーネルでA100に劣る 第191回HPC研究会@東北⼤学 23
  21. SPEChpc 2021 largeサイズの性能⽐較 • HPGMG-FV以外の全てのベン チでFronteraより⼤幅に⾼速 • TeaLeafとPOT3DではBooster より⾼い性能 •

    LBM, CloverLeaf, miniWeatherではBoosterより 性能が低く,スケールアウト するにつれ差が開く傾向 第191回HPC研究会@東北⼤学 24 0 20 40 60 80 100 120 1000 Speedup over baseline # of Sockets AOBA-S Booster Frontera 0 5 10 15 20 25 30 1000 Speedup over baseline # of Sockets AOBA-S Booster Frontera 0 20 40 60 80 100 120 140 1000 Speedup over baseline # of Sockets AOBA-S Booster Frontera 0 10 20 30 40 50 60 1000 Speedup over baseline # of Sockets AOBA-S Booster Frontera 0 5 10 15 20 25 30 35 40 45 50 1000 Speedup over baseline # of Sockets AOBA-S Booster Frontera 0 20 40 60 80 100 120 140 160 1000 Speedup over baseline # of Sockets AOBA-S Booster Frontera LBM TeaLeaf CloverLeaf POT3D HPGMG-FV miniWeather
  22. SPEChpc 2021 largeサイズの性能分析 第191回HPC研究会@東北⼤学 25 0 50 100 150 200

    250 300 LBM TeaLeaf CloverLeaf POT3D HPGMG-FV miniWeather Runtime [s] Computation MPI Communication 0 50 100 150 200 250 300 LBM TeaLeaf CloverLeaf POT3D HPGMG-FV miniWeather Runtime [s] Launch Overhead Time Application Init Time Application Core Time Application Resid Time • Launch Overhead Time: スケジューラやMPIで 費やされた起動オーバーヘッド • Application Init Time: アプリ内初期化処理 • Application Core Time: メインの計算 • Application Residual Time: その他 スケーラビリティが悪いLBM,CloverLeaf, miniWeatherでは通信時間が占める割合は⼩さく, 通信がボトルネックとはなっていない 1400 VEでのプロファイル結果
  23. 各プロセッサの評価に使⽤したシステム 第191回HPC研究会@東北⼤学 28 プロセッサ システム ノード構成 相互結合網 VE20 AOBA-C@東北⼤ AMD

    EPYC 7402P x1 Vector Engine Type 20B x8 InfiniBand HDR 200G x2 VE30 試作機@NEC AMD EPYC 7713P x1 Vector Engine Type 30A x8 InfiniBand HDR 200G x2 A64FX 不⽼Type I@名⼤ Fujitsu A64FX x1 Tofu-D IceLake-SP SQUID@阪⼤ Intel Xeon Platinum 8368 x2 InfiniBand HDR 200G x1 A100 40GB SQUID@阪⼤ Intel Xeon Platinum 8368 x2 NVIDIA A100 40 GB x8 InfiniBand HDR 100G x4
  24. コア専有L3キャッシュ 第191回HPC研究会@東北⼤学 29 Main Memory Last-Level Cache Network on Chip

    SPU VPU L3 Cache NoCの輻輳緩 和 ソフトウェアに よりバイパス可 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 Earthquake Turbulent Flow Antenna Land Mine Turbine Plasma TFLOP/s w/o L3 cache w/ L3 cache VE30はソフトウェア制御可能なコア専有L3キャッシュ (2MB,ユニファイド,ライトスルー) を追加 L3Cによりギャザ のレイテンシ縮減 3.13倍の性能向上 東北⼤カーネル集 LLCの競合緩 和 アクセス遅延 の削減
  25. キャッシュ内演算機能 第191回HPC研究会@東北⼤学 30 for (int i = 0; i <

    n; i++) { y[l[i]] = y[l[i]] + x[i]; } VE20ではユーザは以下から選択する必要: • スカラ: スカラ命令によって計算 (デフォルト) • ivdep: ベクトル命令のみによって計算.ユーザはl[i]が重 複しないことを保証する必要あり.(コンパイラディレク ティブを使⽤) • list_vector: ベクトル命令によって計算し,重複部分の結 果をスカラ命令によって補正.(コンパイラディレクティ ブを使⽤) VE30では: • vlfa: リスト総和演算専⽤の命令 (デフォルト) Core LLC Memory l[i] x[i] y[l[i]] 各LLCバンクが 演算器を備える リスト総和演算は有限要素法,粒⼦法 等で必要となる演算パターン
  26. リスト総和演算専⽤ハードウェア 第191回HPC研究会@東北⼤学 31 0.0 0.1 0.2 0.3 0.4 0.5 0.6

    0.7 0.8 0.9 1.0 1 2 4 8 12 16 20 24 28 32 GFLOP/s # of Overlapping Indices VE20 scalar VE20 list_vector VE30 scalar VE30 list_vector VE30 vlfa リスト総和演算を⾏うマイクロベンチマークを作成し,重複するアドレスの数を変化させながらシ ングルコアの性能を計測 (32個のアドレスの中でx個が重複). vlfaはスカラよ り低性能 vlfaはlist_vector より3.48x⾼速 vlfaは常にlist_vectorより⾼速であり,実アプリでは多数のアドレスが重複することは稀である ため,ユーザは基本的ににvlfaを選択すればよい
  27. 選択的L3キャッシング • VE30では再利⽤されるデータのみをL3 キャッシュに選択的キャッシングさせる ことが可能. • 姫野ベンチマークにより選択的L3キャッ シングの効果を評価 • a,

    b, c, bnd, wrk1, wrk2はストリーミングア クセス • pは再利⽤性あり (理想的には最内ループのに おける19ロード中18がキャッシュヒット). 第191回HPC研究会@東北⼤学 32 for (i=1 ; i<imax-1 ; ++i) for (j=1 ; j<jmax-1 ; ++j) for (k=1 ; k<kmax-1 ; ++k){ s0 = a[0][i][j][k] * p[i+1][j ][k ] + a[1][i][j][k] * p[i ][j+1][k ] + a[2][i][j][k] * p[i ][j ][k+1] + b[0][i][j][k] * (p[i+1][j+1][k ] - p[i+1][j-1][k ] - p[i-1][j+1][k ] + p[i-1][j-1][k ]) + b[1][i][j][k] * (p[i ][j+1][k+1] - p[i ][j-1][k+1] - p[i ][j+1][k-1] + p[i ][j-1][k-1]) + b[2][i][j][k] * (p[i+1][j ][k+1] - p[i-1][j ][k+1] - p[i+1][j ][k-1] + p[i-1][j ][k-1]) + c[0][i][j][k] * p[i-1][j ][k ] + c[1][i][j][k] * p[i ][j-1][k ] + c[2][i][j][k] * p[i ][j ][k-1] + wrk1[i][j][k]; ss = (s0 * a[3][i][j][k] - p[i][j][k]) * bnd[i][j][k]; wgosa += ss*ss; wrk2[i][j][k] = p[i][j][k] + omega * ss; // Copy wrk2 to wrk and sub wgosa across all ranks } 姫野ベンチマークにおけるヤコビ法カーネル
  28. 姫野ベンチにおける選択的キャッシングの効果 第191回HPC研究会@東北⼤学 33 250 255 260 265 270 275 280

    285 290 Watt Cache all Bypass all Cache p only 2.5 2.6 2.7 2.8 2.9 3 3.1 3.2 3.3 GFLOP/s per Watt 0 100 200 300 400 500 600 700 800 900 S M L XL GFLOP/s Problem Size Cache all Bypass all Cache p only サイズ 配列サイズ S 64x64x128 M 128x128x256 L 256x256x512 XL 512x512x1024 選択的キャッシ ングにより+6.9% pがL3Cに 収まらない 選択的キャッシン グにより+5.7% 性能 電⼒ (Lサイズ) 電⼒効率(Lサイズ) VE20: 2.14 GFLOP/s/W A100: 2.21 GFLOP/s/W +8.2% -0.6% 選択的キャッシン グにより+6.5%
  29. パーティショニングモード • VEを2つのNUMAノードに分割する • 各NUMAノードは半分のコア,LLC,HBMを有する (容量と帯域幅も半分) • NoCにおける競合を緩和し,LLCの実効帯域幅が向上 • キャッシュ負荷が⾼いアプリは⾼速化が期待可能

    第191回HPC研究会@東北⼤学 34 Core Core Core Core Core Core LLC LLC Core Core Core Core Core Core Core Core Core Core HBM2E HBM2E HBM2E HBM2E HBM2E HBM2E 0 100 200 300 400 500 600 700 800 900 VE20 VE30 GFLOP/s w/o Partitionig Mode w/ Partitionig Mode +7.1%性能向上 NUMA ノード #0 NUMA ノード #1 姫野ベンチマーク
  30. SPEChpc mediumサイズのMPIプロファイル 第191回HPC研究会@東北⼤学 35 0 20 40 60 80 100

    120 140 160 VE30 A100 VE30 A100 VE30 A100 VE30 A100 VE30 A100 Runtime [s] Others MPI_Init(_thread) MPI_Reduce MPI_Barrier MPI_Waitall MPI_Allreduce MPI_Irecv MPI_Isend miniWeather POT3D CloverLeaf TeaLeaf LBM 0 100 200 300 400 500 600 700 VE30 A100 Runtime [s] HPGMG-FV
  31. FP32ベクトルのアラインメント制約緩和 • VE20ではFP32ベクトルをロード・ストアする際は8バイトアラインされている 必要があり,⼀部のアクセスパターン (ステンシル等) では性能低下が発⽣ • VE30はこの制約を4バイトアラインに緩和 第191回HPC研究会@東北⼤学 36

    0 10 20 30 40 50 60 70 VE20 w/o packed VE30 w/o packed VE30 w/ packed GFLOP/s do k = 1, nz do j = 1, ny do i = 1, nx a(i,j,k) = a(i,j,k) + & (b(i-1,j-1,k-1) + b(i ,j-1,k-1) + b(i+1,j-1,k-1) + & b(i-1,j ,k-1) + b(i ,j ,k-1) + b(i+1,j ,k-1) + & b(i-1,j+1,k-1) + b(i ,j+1,k-1) + b(i+1,j+1,k-1) + & b(i-1,j-1,k ) + b(i ,j-1,k ) + b(i+1,j-1,k ) + & b(i-1,j ,k ) + b(i ,j ,k ) + b(i+1,j ,k ) + & b(i-1,j+1,k ) + b(i ,j+1,k ) + b(i+1,j+1,k ) + & b(i-1,j-1,k+1) + b(i ,j-1,k+1) + b(i+1,j-1,k+1) + & b(i-1,j ,k+1) + b(i ,j ,k+1) + b(i+1,j ,k+1) + & b(i-1,j+1,k+1) + b(i ,j+1,k+1) + b(i+1,j+1,k+1))/27.0 end do end do end do 27点ステンシルベンチマーク
  32. NVIDIA H100シリーズとの⽐較 第191回HPC研究会@東北⼤学 38 NEC VE Type 30A NVIDIA H100

    PCIe NVIDIA H100 SXM5 NVIDIA H100 NVL FP64演算性能/コア [GFLOP/s] 307 449.2 w/ TC 224 w/o TC 506.8 w/ TC 253.4 w/o TC 1013.7 w/TC 506.8 w/o TC コア (SM) 数 16 114 132 264 FP64性能/ソケット [TFLOP/s] 4.9 51.2 w/ TC 25.6 w/o TC 66.9 w/ TC 33.5 w/o TC 133.8 w/ TC 67 w/o TC LLC容量 [MB] 64 50 50 100 メモリ帯域幅 [TB/s] 2.45 2 3.35 7.8 メモリ容量 [GB] 96 80 80 188 プロセスルール [nm] 7 4 4 4 TDP 300 W 350 W 700 W 700-800 W