Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Prometheus 監視で変わるもの

sugitak
January 19, 2017

Prometheus 監視で変わるもの

2017/01/19 『【freee×プレイド】Tech Meetup 〜インフラ監視編〜』の LT 発表資料です。 Prometheus を使っていく中で、監視に対する考え方が変化してきたので、それについてまとめてみました。

sugitak

January 19, 2017
Tweet

More Decks by sugitak

Other Decks in Programming

Transcript

  1. qiita:sugitak です • 元・ネットワーク系 ◦ Cisco ◦ 無線構築 • 自称デプロイ屋

    ◦ bundler, capistrano, … • 監視も古典系出身 ◦ Nagios + Cacti から開始 ◦ munin, growthforecast, … ◦ Zabbix ◦ mackerel
  2. prometheus の発展途上なところ • 若さ ◦ コミュニティ資産足りない ◦ ドキュメント足りない • 作り込みのたいへんさ

    ◦ グラフのためのクエリいじり。楽しいけど結構大変 ◦ あんまりたくさんグラフ作ると苦労する • 点の数に応じてクエリが遅くなる ◦ 多ホスト・長期間のグラフをたくさん並べた状態で見るのは厳しい ◦ 次元の呪い… • コンポーネントが分かれているゆえの苦労も ◦ コンポーネント間で設定がうまくいっているかの確認がが • ダウンサンプリングしてくれない ◦ これは将来マジで入れて欲しい
  3. 従来のデータの取り方 • 見ないデータは取らない ◦ 本当に必須のものは限られている ▪ メモリ使用量 ▪ CPU使用率 ▪

    ディスク容量 ▪ ネットワークI/O ◦ RRD けっこう容量食うし ◦ snmp 経由だと無駄に CPU も食うし
  4. prometheus の 情報収集 • 初期状態で600メトリクス 以上取得してる • sar, snmpwalk や

    dstat を 15 秒おきにとっている ようなもの • 「次にエラーが起きたとき のために dstat 仕込んで おく」とかしなくてよくなっ た
  5. いつも見たいもの・そうでないもの • 普段から見たいもの ◦ 全体的な傾向 ▪ 平均・最小メモリ使用量 ▪ ディスク残量最小のホスト ▪

    CPU 使用状況 ▪ 合計通信量 ▪ アクセス増減傾向 • 緊急時だけで十分なもの ◦ 個別ホストごとの情報 ▪ メモリ ▪ CPU 使用率 ▪ インターフェースごとの通信 • pps, bps, エラーレート ◦ 普段あまり問題にならない値 ▪ I/O 命令数 ▪ fork 数 ▪ ソケットの使用状況 Prometheus で アドホックに クエリして確認 Grafana で 自サービス向けの ボードを作り込む 配布されてる 汎用テンプレートを使う
  6. まとめ • データはひたすら全部とる • 普段使いのスクリーンだけ愛情込めてメンテする ◦ 何の情報かわからないグラフは割れ窓。消す ◦ 95% のデータは見られることもない。必要になってからアドホック確認で十分

    • グラフはインサイト(知見)を得られるものだけ作る ◦ 「どういう状態を目で確認するためか」を考えてグラフを作る ◦ 破天荒なグラフでも、わかればオッケー => Prometheus に限らず、監視で大事にしていきたい