Upgrade to Pro — share decks privately, control downloads, hide ads and more …

セルフホスト型ランタイムによる WebAssembly インストルメンテーションの実現可能性検...

Yuki Nakata chikuwait
September 11, 2024
400

セルフホスト型ランタイムによる WebAssembly インストルメンテーションの実現可能性検討/jssst-41

https://jssst2024.wordpress.com/program/
セルフホスト型ランタイムによる WebAssembly インストルメンテーションの実現可能性検討
中田 裕貴(さくらインターネット / はこだて未来大), 松原 克弥(はこだて未来大)

Yuki Nakata chikuwait

September 11, 2024
Tweet

More Decks by Yuki Nakata chikuwait

Transcript

  1. 2024/09/12 日本ソフトウェア科学会第 41 回大会 セルフホスト型ランタイムによる WebAssemblyインストルメンテーションの実現可能性検討 Feasibility Study of WebAssembly

    Binary Instrumentation with Self-hosted Runtime 中田 裕貴 1,2 松原 克弥 2 1:さくらインターネット株式会社 さくらインターネット研究所 2:公立はこだて未来大学 システムソフトウェア研究室
  2. アプリケーション実行中の状態を把握するための技術 インストルメンテーション(Binary / Code Instrumentation) 1 • 静的解析によるテストより詳細・正確な分析 • バグの調査やフローの可視化、プロファイリング、リアルタイム監視に活用

    … calc_pi(); … アプリケーションのコード・バイナリ インストルメント コード • イベントログの記録 • 命令・操作時間の計測 • メモリ・スタック状態の追跡 バイナリや コードの改変 … calc_pi(); … 3.14… 分析結果 実行時間: … メモリ使用量: … コールグラフ: …
  3. ユーザ近傍のエッジサーバを活用した計算環境[1] エッジコンピューティングにおけるライブマイグレーションへの応用(1/2) 2 エッジ 大 小 • デバイス・エッジサーバ・クラウドが連携 • エッジサーバによる低レイテンシな処理

    • クラウドによる高速な処理 • 連携処理手法 • タスクのオフローディング • ユーザの移動や通信状況の変化による アプリケーションのハンドオーバ 処理能力・ 通信レイテンシ [1]Keyan Cao, Yefan Liu, Gongjie Meng, and Qi-meng Sun. An overview on edge computing research. IEEE Access, Vol. 8, pp. 85714–85728, 2020 クラウド デバイス
  4. ユーザ近傍のエッジサーバを活用した計算環境[1] エッジコンピューティングにおけるライブマイグレーションへの応用(1/2) 3 大 小 • デバイス・エッジサーバ・クラウドが連携 • エッジサーバによる低レイテンシな処理 •

    クラウドによる高速な処理 • 連携処理手法 • タスクのオフローディング • ユーザの移動や通信状況の変化による アプリケーションのハンドオーバ 処理能力・ 通信レイテンシ [1]Keyan Cao, Yefan Liu, Gongjie Meng, and Qi-meng Sun. An overview on edge computing research. IEEE Access, Vol. 8, pp. 85714–85728, 2020 エッジやクラウドへ 処理をオフロード クラウド エッジ デバイス
  5. ユーザ近傍のエッジサーバを活用した計算環境[1] エッジコンピューティングにおけるライブマイグレーションへの応用(1/2) 4 • デバイス・エッジサーバ・クラウドが連携 • エッジサーバによる低レイテンシな処理 • クラウドによる高速な処理 •

    連携処理手法 • タスクのオフローディング • ユーザの移動や通信状況の変化による アプリケーションのハンドオーバ 大 小 処理能力・ 通信レイテンシ エッジから エッジへ移動 [1]Keyan Cao, Yefan Liu, Gongjie Meng, and Qi-meng Sun. An overview on edge computing research. IEEE Access, Vol. 8, pp. 85714–85728, 2020 クラウド エッジ デバイス
  6. WebAssembly(Wasm)[2] 統一な実行環境によるシームレスなオフロード・ハンドオーバ エッジコンピューティングにおけるアプリケーション実行環境 6 多様な環境で動作するVM・ 各用途に特化したランタイム実装 エッジ向けランタイム e.g., WAMR (WebAssembly

    Micro Runtime) エッジ環境 (ARM) クラウド環境 (x86_64) クラウド向けランタイム e.g., Wasmtime Wasmバイトコード Wasmバイトコード 低メモリ消費・ 電力消費 高速実行 [2] WebAssembly Community Group. Webassembly specification ― webassembly 2.0 (draft 2024-08- 11). https://webassembly.github.io/spec/core/, 2022. (Accessed on 08/12/2024). … Wasmバイトコード あらゆる言語から コンパイル Rust C言語 仮想命令セットアーキテクチャ
  7. R1. マイグレーションに必要な内部状態の取得 エッジVMマイグレーションに適した Wasmバイトコードインストルメンテーションの要件 7 スタック 2 線形メモリ プログラムカウンタ …

    Local.get Local.get I32.add … 0xaaa 0xbbb 次に実行する バイトコードのアドレス 0xabb H e l l o \n 0x00 0x05 配列や文字列など 数値型以外のデータを格納 1 … 数値型を格納する 値スタック Int a = 1 + 2; … 関数の情報を格納する フレームスタック Args: … RetAddr: … Locals:…
  8. Wasmランタイム R2. 多様なWasmランタイムや実行方式に非依存 エッジVMマイグレーションに適した Wasmバイトコードインストルメンテーションの要件 8 デバイスやエッジ・クラウドで 最適なWasmランタイムが異なる 各ランタイムに適した形での インストルメンテーション実装は複雑

    WAMR エッジ環境 Wasmバイトコード インストルメンテーション 機構 for WAMR Wasmtime クラウド環境 Wasmバイトコード インストルメンテーション 機構 for Wasmtime Wasmランタイムごとに採用する 実行方式が異なる 各実行方式の差異に合わせて実装するのは困難 Wasm バイトコード AOT コンパイル AOT用 インストルメンテーション ネイティブ バイナリ JIT用 インストルメンテーション インタプリタ用 インストルメンテーション JITコンパイル
  9. • 実行前にインストルメントコードを挿入 • 命令単位や関数呼び出し前後 • ランタイムや実行方式に非依存 • アプリケーション性能が大幅に低下 • 解析処理をJavaScriptで記述し

    インストルメントコードから呼び出し • 大量のJavaScript関数の呼び出し Pros: ランタイムや実行方式に非依存な内部状態の取得(R1,2) Cons: インストルメンテーションによる大幅な性能低下(R3) Wasabi[3]:静的なインストルメントコード挿入手法 10 Wasm バイトコード 改変済Wasmバイトコード インストルメント コード挿入 解析用 JavaScript関数 解析関数 呼び出し … local.get $p1 local.get $p2 i32.add call $hoge … … call $analysis local.get $p1 call $analysis local.get $p2 call $analysis i32.add call $analysis call $hoge call $analysis … [3] Daniel Lehmann and Michael Pradel. Wasabi: A framework for dynamically analyzing webassembly. In Proceedings of the Twenty-Fourth International Conference on Architectural Support for Programming Languages and Operating Systems, ASPLOS ’19, p. 1045–1058, New York, NY, USA, 2019. Association for Computing Machinery.
  10. Pros: 高性能なインストルメンテーション(R1, 3) Cons: ランタイム・実行方式に依存(R2) Wizard[4]:ランタイム内での動的なインストルメンテーション手法 11 • 実行中にインストルメントコードを挿入 •

    計測対象の命令を置き換え • 対象外の命令はそのまま実行し 実行性能に与えるオーバヘッドを軽減 • 実行方式に依存 • インタプリタとJITコンパイルをサポート • 実行方式ごとに異なるインストルメンテーション機構 Wizardランタイム … local.get $p1 local.get $p2 i32.add call $hoge … … probe local.get $p2 probe call $hoge … インストルメンテーション 機構 インタプリタ向け 実装 JIT向け 実装 実行中に 命令を置き換え [4] Ben L. Titzer, Elizabeth Gilbert, Bradley Wei Jie Teo, Yash Anand, Kazuyuki Takayama, and Heather Miller. Flexible non-intrusive dynamic instrumentation for webassembly. In Proceedings of the 29th ACM International Conference on Architectural Support for Programming Languages and Operating Systems, Volume 3, ASPLOS ’24, p. 398–415, New York, NY, USA, 2024. Association for Computing Machinery.
  11. Pros: OSカーネル内での高速なインストルメンテーション(R3) Cons: 状態取得が複雑(R1)・実行方式への依存(R2) Dtrace[5]: Wasmランタイム外でのインストルメンテーション手法 12 • アプリケーションやOSカーネルなどの状態を リアルタイムに収集

    • カーネル内動作で性能に与えるオーバヘッドを軽減 • ランタイムとアプリケーションの状態が混在 • アプリケーションの状態のみを取得する必要 • 実行方式に合わせて内部状態も変化 • アプリケーションの状態のみを取得するのは困難 OSプロセス OSカーネル Dtrace Wasm バイトコード Wasmランタイム [5] Bryan M. Cantrill, Michael W. Shapiro, and Adam H. Leventhal. Dynamic instrumentation of production systems. In 2004 USENIX Annual Technical Conference (USENIX ATC 04), Boston, MA, June 2004. USENIX Association.
  12. 本研究の目的と提案 13 目的 • エッジVMマイグレーションに適した Wasmバイトコードインストルメンテーション機構 • VMマイグレーションに適した内部状態の取得(R1) • ランタイム・実行方式非依存(R2)

    • アプリケーション性能に与えるオーバヘッドを軽減(R3) 提案 • セルフホスト型Wasmランタイムによるインストルメンテーション • インストルメンテーション機構を備えたWasmランタイムをセルフホスト化 • 任意のWasmランタイム上でセルフホスト型Wasmランタイムを用いてアプリケーションを実行 任意のWasmランタイム セルフホスト Wasmランタイム インストルメンテーション 機構 Wasmバイトコード
  13. セルフホストWasmランタイムに インストルメンテーション機構を実装 提案するセルフホスト型Wasmランタイムの概要 14 • ランタイムのためマイグレーションに 必要な状態の取得が容易(R1) • 任意のランタイムで実行 •

    ランタイム・実行方式に依存した インストルメンテーション機構が不要(R2) • ランタイムを二重実行による 性能低下の可能性がある • オーバヘッドを明らかにしてR3を評価する必要 線形メモリ スタック プログラム カウンタ 0x00 0xff 任意のWasmランタイム セルフホストWasmランタイム インストルメンテーション機構 Wasmバイトコード 線形メモリ スタック プログラム カウンタ 0x00 0xff
  14. アプリケーション性能へのオーバヘッドを明らかにする 実現可能性評価1:セルフホスト環境におけるアプリケーション性能 15 • ベンチマークプログラム • The Computer Language24.06 Benchmarks

    Gameの マンデルブロ集合の計算と描画プログラム[6] • セルフホスト化したWasm3で性能評価 • セルフホストをサポート、高速インタプリタ方式 • Wasm3、Wasmtime(JITコンパイル)で ベンチマークプログラムを直接実行した場合と比較 OS Ubuntu 22.04.4 LTS(Linux 5.15.0) CPU Intel Xeon Silver 4208 8Core 2.10GHz メモリ 32 GB ストレージ SSD 480GBx2 (RAID1) 実験環境 (さくらの専用サーバPHY RX2530 M5 8コア 1CPU) [6] DaIsaac Gouy. mandelbrot rust #4 program (benchmarks game). https://benchmarksgame-team.pages.debian.net/benchmarksgame/program/mandelbrot-rust-4. html. (Accessed on 08/15/2024).
  15. セルフホスト環境は アプリケーション実行にかかる時間が大幅に増加 セルフホスト環境と通常実行環境でのアプリケーション性能比較結果 16 • セルフホスト環境におけるオーバヘッドの推測 • ベンチマークプログラムに加えて セルフホストWasm3の命令も解釈・実行する必要 •

    実行しなければならない命令の数が増大 • WasmtimeのJITコンパイルが適用されるのは Wasm3のインタプリタ処理のみ • ベンチマークプログラムには適用されない 計測対象 実行時間(秒) Wasm3 83.53 セルフホストWasm3 on Wasm3 3125.61 Wasmtime 14.02 セルフホストWasm3 on Wasmtime 1579.32 37倍 112倍
  16. セルフホストのインストルメンテーション性能を明らかにする 実現可能性評価2:セルフホスト型と 静的なインストルメントコード挿入手法での性能比較 17 • セルフホストWasm3にインストルメンテーション機構を実装 • WasabiとセルフホストWasm3でインストルメンテーションを実行 • 100万項のライプニッツ級数を用いた円周率計算

    • メモリアクセス命令を解析し使用したメモリのページサイズの合計を計算 • セルフホストWasm3の実行に使用したランタイム • Wasm3、Wasmtime、WasmEdge(インタプリタ・AOTコンパイル) • Wasabiの実行にはNode.js(JITコンパイル)を使用
  17. セルフホストWasm3でのインストルメンテーションは 実行ランタイムに合わせて性能が変化 セルフホストWasm3とWasabiの性能比較結果 18 実行時間(分) Wasabi Wasm3 on Wasm3 Wasm3

    on Wasmtime Wasm3 on WasmEdge(AOT) Wasm3 on WasmEdge(Interp.) 0 50 100 150 200 250 Wasabiよりも高速な インストルメンテーション 高速インタプリタ、JIT・AOTコンパイルによって 性能が向上
  18. セルフホストWasm3でのインストルメンテーションは 実行ランタイムに合わせて性能が変化 セルフホストWasm3とWasabiの性能比較結果 19 実行時間(分) Wasabi Wasm3 on Wasm3 Wasm3

    on Wasmtime Wasm3 on WasmEdge(AOT) Wasm3 on WasmEdge(Interp.) 0 50 100 150 200 250 JITコンパイルを用いているが セルフホストより性能が悪化 JavaScript関数の呼び出しによる オーバヘッド
  19. セルフホストWasm3でのインストルメンテーションは 実行ランタイムに合わせて性能が変化 セルフホストWasm3とWasabiの性能比較結果 20 実行時間(分) Wasabi Wasm3 on Wasm3 Wasm3

    on Wasmtime Wasm3 on WasmEdge(AOT) Wasm3 on WasmEdge(Interp.) 0 50 100 150 200 250 性能向上のための最適化がされていない 通常のインタプリタ方式
  20. 実行CPU総命令数が大幅に増加し、呼び出す関数の傾向も変化 セルフホスト化による処理の差異に関する調査結果 23 計測対象 総命令数 Wasm3 400,849,582,525 Wasm3 on Wasm3

    318,276,978,517,504 Wasm3 Wasm3 on Wasm3 1 op_SetSlot_f64 (28.22%) op_CopySlot_32(16.57%) 2 op_f64_Add_rs(22.15%) op_i32_Load_i32_s(15.51%) 3 op_f64_Multiply_rs(21.53%) op_CallIndirect(8.71%) 4 op_f64_Multiply_ss(7.22%) op_SetSlot_i32(8.36%) 5 op_f64_Subtract_rs(6.41%) op_Entry(6.89%) 794倍
  21. 実行CPU総命令数が大幅に増加し、呼び出す関数の傾向も変化 セルフホスト化による処理の差異に関する調査結果 24 Wasm3 Wasm3 on Wasm3 1 op_SetSlot_f64 (28.22%)

    op_CopySlot_32(16.57%) 2 op_f64_Add_rs(22.15%) op_i32_Load_i32_s(15.51%) 3 op_f64_Multiply_rs(21.53%) op_CallIndirect(8.71%) 4 op_f64_Multiply_ss(7.22%) op_SetSlot_i32(8.36%) 5 op_f64_Subtract_rs(6.41%) op_Entry(6.89%) 計測対象 総命令数 Wasm3 400,849,582,525 Wasm3 on Wasm3 318,276,978,517,504 794倍 算術演算処理が 全体の57.31%を占める
  22. 実行CPU総命令数が大幅に増加し、呼び出す関数の傾向も変化 セルフホスト化による処理の差異に関する調査結果 25 Wasm3 Wasm3 on Wasm3 1 op_SetSlot_f64 (28.22%)

    op_CopySlot_32(16.57%) 2 op_f64_Add_rs(22.15%) op_i32_Load_i32_s(15.51%) 3 op_f64_Multiply_rs(21.53%) op_CallIndirect(8.71%) 4 op_f64_Multiply_ss(7.22%) op_SetSlot_i32(8.36%) 5 op_f64_Subtract_rs(6.41%) op_Entry(6.89%) 線形メモリや 制御命令処理が増加 計測対象 総命令数 Wasm3 400,849,582,525 Wasm3 on Wasm3 318,276,978,517,504 794倍
  23. セルフホスト型Wasmランタイム 処理変化の影響: 二重サンドボックスによる処理時間増大 セルフホスト型を前提としたランタイム設計の議論(1/2) サンドボックス: 悪意のあるプログラムから実行環境を保護 • 実行前:バイトコード検証と 実行中:スタック・線形メモリの保護 •

    既知の実行時性能のオーバヘッド[7, 8] • メモリに関する処理が増加した結果 • 境界値チェック処理にかかる時間も増大 Wasmランタイム サンドボックス 0x00 0xff サンドボックス(セルフホスト) 型の一致や 命令の有効性を検証 0x00 0xff 境界値チェック 26 [7] Matthew Kolosick, Shravan Narayan, Evan Johnson, Conrad Watt, Michael LeMay, Deepak Garg, Ranjit Jhala, and Deian Stefan. Isolation without taxation: near-zero-cost transitions for webassembly and sfi. Proc. ACM Program. Lang., Vol. 6, No. POPL, jan 2022. [8] Raven Szewczyk, Kimberley Stonehouse, Antonio Barbalace, and Tom Spink. Leaps and bounds: Analyzing webassembly ’s performance with a fo- cus on bounds checking. In 2022 IEEE Interna- tional Symposium on Workload Characterization (IISWC), pp. 256–268, 2022.
  24. まとめ • セルフホスト型Wasmランタイムによる Wasmバイトコードインストルメンテーション機構を提案 • ランタイムとして実装することでマイグレーションに必要な状態を容易に取得 • ランタイム・実行方式に合わせたインストルメンテーション機構の実装が不要 • 既存の静的手法よりアプリケーション性能は高速であるが

    通常実行時に比べて大きく低下 • ランタイム間で重複している機構の削減を検討 • 今後の展望 • 二重のサンドボックス機構を排除したセルフホスト最適化ランタイムの実装を進める • セルフホストを前提としたバイトコードの命令解釈・実行処理の高速化手法の検討 28