Arch輪読: 詳解システムパフォーマンス第二版第６章

詳解システム・パフォーマンス第2版第6章 Arch輪読発表者: kota

今日の範囲 6.3.11〜6.3.15 残りのコンセプト 6.4 CPUアーキテクチャ 6.5 分析メソドロジ 6.6 可観測性ツール 6.7
可視化 6.8 実験 / 6.9 チューニング 2

6.3 コンセプト 3

6.3.11 プリエンプション優先度の高い実行可能スレッドが，実行中スレッドからCPUを奪う．低優先度スレッド: [========= 実行 =] [========= 実行 ======]
高優先度スレッド: [ キューに追加] [== 実行 ==] ↑ タイマー割り込み Linuxではスレッドごとにスケジューリングポリシーを決められる(kernel/sched/core.c) 期限ベース: SCHED_DEADLINE リアルタイム: SCHED_FIFO, SCHED_RR タイムシェア: SCHED_NORMAL, SCHED_BATCH, SCHED_IDLE スケジューラーは期限ベース→リアルタイム→タイムシェアの順にキューを走査するタイムシェアについてはユーザーが設定できる nice 値を元に重みが決まるより nice 値が小さいほどCPUを占有できる時間が増える 4

6.3.12 優先度の逆転高優先度 C ── lock 待ち ─────────────────┐ 低優先度 A
── lock 保持 ── preempted ────┤ 中優先度 B ───────────── 実行中 ─────────┘ CはAのロック解放を待つ AはBにCPUを奪われる結果としてCが，実質的にBに妨げられる対策の例: 優先度継承クリティカルセクションを短くする 5

6.3.13 マルチプロセス / マルチスレッド ←ここでいうスレッドはpthread マルチプロセスマルチスレッドアドレス空間分離共有
通信 IPCが必要共有メモリ障害分離強い弱いデータ同期比較的単純ロックが必要メモリ負荷大きい小さい 6

6.3.14 ワードサイズワードサイズはレジスタのサイズ，ポインターのサイズに対応する大きいワードは一度に扱える情報量を増やす一方，ポインターのサイズが大きくなるため，メモリ使用量が多くなる場合がある連結ノードや木などのデータ構造ではポインターを含む構造体を大量に作るポインターのサイズ増加がアプリ自体のメモリ使用量を大きく増やし得る struct Node {
int value; // 4B struct Node* next; // 4B なら構造体は8B ．8B の場合16B }; 同じページサイズ，キャッシュ容量の時，格納できる変数の数が減りキャッシュヒット率が下がるおそれもある 7

6.3.15 コンパイラ最適化 Cコンパイラだと -O2 とかで設定できる最適化の手法は無限にあるコンパイル時に計算できる定数の畳み込み，伝播インライン展開末尾再帰最適化 SIMD命令の利用
etc. コンパイラのバージョン変更だけで結果が変わり得るため，バージョンも測定条件になる． 8

6.4 ハードウェア 9

プロセッサ最近はラップトップでも8コア以上が主流実際はレジスタやALUは複数ある他にもPキャッシュやmicrocode ROM，温度センサーなどもプロセッサ上に搭載される 10

P-state / C-state P-state: 実行時の性能・周波数 P0を最高の周波数としてP1以降は周波数が下がるハードウェアとソフトウェアの両方によって制御される（MSRに値が入る） C-state: アイドル時の省電力状態 11

CPUキャッシュ階層レベル1 キャッシュのアクセス時間は一般に数CPU クロックサイクルであり，それよりも大きいレベル2キャッシュは10 クロックサイクル前後である．それに対し，メインメモリアクセスには60n 秒（4GHz プロセッサで約240 サイクル）かかり，MMU
によるアドレス変換でさらにレイテンシが加わる． 12

キャッシュの連想度ダイレクトマップもフルアソシアティブも，セットアソシアティブの部分集合といえる 14

キャッシュラインとコヒーレンシキャッシュは通常，1変数ではなくライン単位で転送 x86だと典型的には64バイトコアごとにキャッシュが分かれていても常に正しい状態のメモリにアクセスしたい MESI/MOESIなどのCoherency担保のプロトコルを使う (TODO: MESI/MOESIの説明) 15

MMU / TLB メモリアクセスは仮想アドレスによって行う仮想アドレスを使うことでメモリスワップが可能になるアドレス変換のために毎度メモリアクセスを行わないためにTLBがある 16

インターコネクト: UMA バスを共有することによる競合，それによるスケーラビリティの課題 17

インターコネクト: NUMA 現代のマルチプロセッサアーキテクチャでは，CPUインターコネクトを用いる ←Intel QPI DRAMが各CPUの隣に分散して配置されている（ノード）各パスはプライベートに接続されており，競合を起こさないまたパスが分かれているため高い帯域幅を実現できる numactlとかnumastatとかでパフォーマンスを確認できる 18

Performance Monitoring Counter (PMC) CPUのアクティビティに関するカウンタ CPUサイクル命令フェッチキャッシュアクセス（ヒット/ミス） float演算メモリIO
リソースIO 例えばIntel P6では，4つのMSRレジスタでPMCを提供している 2個はevent-select，2個は読み出し専用のカウンタまたArm8-A/9-Aではサイクルカウンタは固定，カウンタは30個ある 19

GPU ストリーミングプロセッサ（SP）というスレッドを実行できる小さなコア数千個を含む並列実行できるスレッド群はスレッドブロックという単位にまとめられ，SPの集合であるストリーミングマルチプロセッサ（SM）によって実行される 20

ソフトウェア: スケジューラタイムシェアリングプリエンプション CPU間ロードバランシングキャッシュ局所性を考慮したマイグレーション Linuxではタイマー割り込み scheduler_tick() :
現在のタスクの使用時間更新，クラスごとのtick呼び出し check_preempt_curr() : wakeupしたタスクと現在タスクの比較（優先度など） __schedule() : need_resched=1 の時，現在のタスクをランキューに戻す pick_next_task() : 次のタスクを選ぶ 21

6.5 分析メソドロジ 22

6.5.1 ツールメソッド利用できるツールを順に試し，主要な指標から手がかりを探す．ツール見るもの uptime , top ロードアベレージの増減 vmstat
システム全体のCPU使用率 mpstat CPUごとの偏り，ホットCPU top , pidstat CPUを使うプロセス・スレッド perf , profile CPUが使われるコードパス showboost , turbostat , dmesg 周波数低下や温度スロットリング弱点: ツールで直接見えない問題を見落としやすい． 23

6.5.2 USEメソッド CPUごとに，ボトルネックとエラーを初期調査する．観点 CPUでの意味 Utilization アイドル以外を実行していた時間の割合 Saturation 実行可能だがon-CPUを待つスレッド Errors
corrected error，offline CPUなどエラーは解釈しやすいので最初に確認する使用率はシステム全体ではなくCPU単位でも見るクラウドでは物理CPUだけでなく，CPUクォータに対する使用率も見る GPUなどのアクセラレータも，取れる指標があれば同じ考え方で見る 24

6.5.3 ワークロードの特性の把握ロードアベレージ（使用率 + 飽和度）ユーザー時間 / システム時間の比率システムコールの頻度自発的コンテキストスイッチの頻度
割り込みの頻度追加で確認する問い: CPU使用率はシステム全体・CPUごと・コアごとでどうか負荷はどれだけ並列化されているかどのアプリ・ユーザー・カーネルスレッドがCPUを使うか割り込み，インターコネクト，コールパス，ストールサイクルはどうか時間帯ごと，時期ごとのそれぞれの特性はどのように変化するか 25

6.5.4 プロファイリング CPUが使われている理由を，実行中のコードパスから見る．タイマーベース 99Hzなど若干周波数をずらして関数/スタックトレースのサンプルを収集する本番環境では収集時間を伸ばして頻度を下げるなど，オーバーヘッドにならないようにする profile ではプロファイリング結果の要約を出力する長時間のプロファイルだとファイルの書き出し時に無視できないディスクIOが発
生するため関数のトレーシング関数の前後に計測処理を入れるなどして所要時間を計測するタイマーベースと比較してオーバーヘッドが大きいので本番環境ではあまり使われない 26

6.5.5 サイクル分析 PMCを使い，CPUサイクルがどこで消費・停止しているかを見る．主にIPC(Instruction Per Cycle)を見る IPCが低い: 1命令の実行に時間がかかっている（平均）ストールしているサイクルを特定する I/Dキャッシュミス，分岐予測失敗など
IPCが高い: 命令の実行時間は問題がない≒単純に命令数が多い命令数を減らす 27

6.5.7 静的パフォーマンスチューニング動いているワークロードではなく，構成された環境の問題を調べる．チェック項目: 利用可能なCPU数は何個か．コアかハードウェアスレッドか GPUなどのアクセラレータはあるか，使われているか CPUアーキテクチャ，キャッシュサイズ，共有関係はどうかクロックスピードは固定か動的か．Turbo Boost /
SpeedStepは有効か BIOSの省電力・バス・CPU関連機能はどう設定されているかプロセッサやBIOSのエラッタに性能問題はあるかマイクロコード更新や脆弱性緩和が性能に影響していないか(?) クラウドではリソース制限も確認する必要がある（cgroup） 28

6.5.8 優先度のチューニング nice : 正の値で優先度を下げ，負の値で優先度を上げる renice : 実行中プロセスのnice値を変更する優先度の低い処理例: 監視エージェント，バックアップ，バッチ処理
効果の確認: 優先度の高い要求のスケジューラレイテンシが下がるか低優先度側の遅延が許容できるかスケジュールクラスもユーザーレベルで指定できるリアルタイムクラスで無限ループなどのバグを仕込むと管理シェルなど修正に必要なプロセスがCPUを使えなくなる場合がある 29

6.5.10 CPUのバインドスレッドを特定のコア（orコアのグループ）にバインドする手法があるキャッシュのヒット率が向上しメモリIOの速度が上がるあるコアを特定のスレッドのみ使えるようにする排他的CPUセットもある他のスレッドは実行され得ないのでよりキャッシュのヒット率が上がるメモリIOが非常に重要なタスクや性能検証の場合に使える 30

6.5.11 マイクロベンチマーキング単純な操作を大量に繰り返し，CPUの特定能力を測る．対象例: CPU命令: 整数演算，浮動小数点演算，ロード/ストア，分岐メモリアクセス: キャッシュレイテンシ，メモリスループット高水準言語: インタープリタ/コンパイル言語の処理
OS操作: getpid(2) ，プロセス作成，パイプスループットどのベンチマークを使う場合でも、システム間で結果を比較するときには、実際に何をテストしているのかを理解していることが大切だ。これらのベンチマークは、ベンチマークコードやCPU のスピードではなく、コンパイラの異なるバージョンの間で、コンパイラの最適化機能をテストするだけになってしまっていることがよくある。 31

6.6 可観測性ツール 32

6.9 チューニング不要な仕事を取り除く優先順位: 1. 不要な処理をしない 2. 呼び出し回数を減らす 3. データ移動を減らす
4. 局所性を上げる 5. 高価な演算を置き換える 6. 最後に並列化・CPU固定・OS設定環境チューニングは，コード上の無駄を隠すことがある． 33

Arch輪読: 詳解システムパフォーマンス第二版第６章

Arch輪読: 詳解システムパフォーマンス第二版第６章

kota-yata

More Decks by kota-yata

Other Decks in Programming

Featured

Transcript

詳解システム・パフォーマンス第2版第6章 Arch輪読発表者: kota

今日の範囲 6.3.11〜6.3.15 残りのコンセプト 6.4 CPUアーキテクチャ 6.5 分析メソドロジ 6.6 可観測性ツール 6.7

6.3 コンセプト 3

6.3.11 プリエンプション優先度の高い実行可能スレッドが，実行中スレッドからCPUを奪う．低優先度スレッド: [========= 実行 =] [========= 実行 ======]

6.3.12 優先度の逆転高優先度 C ── lock 待ち ─────────────────┐ 低優先度 A

6.3.13 マルチプロセス / マルチスレッド ←ここでいうスレッドはpthread マルチプロセスマルチスレッドアドレス空間分離共有

6.3.15 コンパイラ最適化 Cコンパイラだと -O2 とかで設定できる最適化の手法は無限にあるコンパイル時に計算できる定数の畳み込み，伝播インライン展開末尾再帰最適化 SIMD命令の利用

6.4 ハードウェア 9

プロセッサ最近はラップトップでも8コア以上が主流実際はレジスタやALUは複数ある他にもPキャッシュやmicrocode ROM，温度センサーなどもプロセッサ上に搭載される 10

P-state / C-state P-state: 実行時の性能・周波数 P0を最高の周波数としてP1以降は周波数が下がるハードウェアとソフトウェアの両方によって制御される（MSRに値が入る） C-state: アイドル時の省電力状態 11

13

キャッシュの連想度ダイレクトマップもフルアソシアティブも，セットアソシアティブの部分集合といえる 14

MMU / TLB メモリアクセスは仮想アドレスによって行う仮想アドレスを使うことでメモリスワップが可能になるアドレス変換のために毎度メモリアクセスを行わないためにTLBがある 16

インターコネクト: UMA バスを共有することによる競合，それによるスケーラビリティの課題 17

Performance Monitoring Counter (PMC) CPUのアクティビティに関するカウンタ CPUサイクル命令フェッチキャッシュアクセス（ヒット/ミス） float演算メモリIO

ソフトウェア: スケジューラタイムシェアリングプリエンプション CPU間ロードバランシングキャッシュ局所性を考慮したマイグレーション Linuxではタイマー割り込み scheduler_tick() :

6.5 分析メソドロジ 22

6.5.1 ツールメソッド利用できるツールを順に試し，主要な指標から手がかりを探す．ツール見るもの uptime , top ロードアベレージの増減 vmstat

6.5.2 USEメソッド CPUごとに，ボトルネックとエラーを初期調査する．観点 CPUでの意味 Utilization アイドル以外を実行していた時間の割合 Saturation 実行可能だがon-CPUを待つスレッド Errors

6.5.3 ワークロードの特性の把握ロードアベレージ（使用率 + 飽和度）ユーザー時間 / システム時間の比率システムコールの頻度自発的コンテキストスイッチの頻度

6.5.8 優先度のチューニング nice : 正の値で優先度を下げ，負の値で優先度を上げる renice : 実行中プロセスのnice値を変更する優先度の低い処理例: 監視エージェント，バックアップ，バッチ処理

6.6 可観測性ツール 32

6.9 チューニング不要な仕事を取り除く優先順位: 1. 不要な処理をしない 2. 呼び出し回数を減らす 3. データ移動を減らす

Arch輪読: 詳解システムパフォーマンス 第二版 第６章

Arch輪読: 詳解システムパフォーマンス 第二版 第６章

More Decks by kota-yata

Other Decks in Programming

Featured

Transcript

Arch輪読: 詳解システムパフォーマンス第二版第６章

Arch輪読: 詳解システムパフォーマンス第二版第６章