Upgrade to Pro — share decks privately, control downloads, hide ads and more …

24/7システムの運用担当を1年半していたこととはほぼ無関係なトラブルシューティング技法

 24/7システムの運用担当を1年半していたこととはほぼ無関係なトラブルシューティング技法

2019-09-13 社内LT会で発表した内容です。

typewriter / takuya

September 13, 2019
Tweet

More Decks by typewriter / takuya

Other Decks in Technology

Transcript

  1. すき: 京都、百合、 C#/Ruby/Vim ☆新刊・既刊情報 07/18 あおのなち      「きみが死ぬまで恋をしたい(2)」 08/30 ヨルモ「レゾナントブルー」 09/27

    なもり「ゆりゆり(2)」 11月頃 仲谷鳰「やがて君になる(7・最終巻)」 圓光寺 (京都市左京区一乗寺, 2016/11/14撮影)
  2. おことわり • “トラブルは無いほうが良い” という前提です(当たり前) • GoogleのSRE本 12章に だいたい書いてあります 書影: Google

    - Site Reliability Engineering: https://landing.google.com/sre/books/ Chapter 12 - Effective Troubleshooting: https://landing.google.com/sre/sre-book/chapters/effective-troubleshooting/ 
  3. トラブルシューティング手法 レイヤごとに仮説立案→検証で「切り分け」 1. トップダウン方式 2. ボトムアップ方式 3. 分割統治方式 (その他省略) トラブルシュートをマスターする

    https://www.cisco.com/c/dam/global/ja_jp/training-events/es/cy11/pdf/cisco3-20110610interop.pdf アプリケーション プレゼンテーション セッション トランスポート ネットワーク データリンク 物理 1 2 3 勘が冴えている場合に有効 OSI参照モデルの場合
  4. 典型的なWebサービスだと… さくらのアイコンセット (CC-BY 4.0) https://knowledge.sakura.ad.jp/4724/ Webサーバ APサーバ DBサーバ LB LB

    (1) トップダウン方式 (2) ボトムアップ方式 (3) 分割統治方式 トラブルシューティング手法
  5. 構成を知る ALB nginx ALB Ruby on Rails と多数のgem と共通モジュール とReact

    Aurora Postgre SQL ECS(EC2) ECS(EC2) Amazon Web Services 実際のシステム構成 さくらのアイコンセット (CC-BY 4.0) https://knowledge.sakura.ad.jp/4724/
  6. 構成を知る 実際のシステム構成 さくらのアイコンセット (CC-BY 4.0) https://knowledge.sakura.ad.jp/4724/ + ビルド/デプロイ構成 Terraform Webpack Amazon

    ECR … GitLab CI … ALB nginx ALB Ruby on Railsと(略) Aurora PostgreSQL Unicorn Ruby Alpine Linux Debian GNU/Linux Docker Docker Amazon Linux 2 Amazon Linux 2 ECS(EC2) ECS(EC2) CloudWatch Amazon Web Services [ap-northeast-1a/1c]
  7. 異常検知(人力) 平常時のnginxのアクセスログ(1リクエスト) time:07/Sep/2019:10:54:32 +0900 host:xx.xx.xx.xx forwardedfor:- req:GET /v2/jma/quake HTTP/1.1 status:200

    size:1728 referer:- ua:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36 reqtime:0.149 apptime:0.149 vhost:api.p2pquake.net P2P地震情報サーバのアクセスログ
  8. 異常検知(人力) 慣れるとこう見えてくる time:07/Sep/2019:10:54:32 +0900 host:xx.xx.xx.xx forwardedfor:- req:GET /v2/jma/quake HTTP/1.1 status:200

    size:1728 referer:- ua:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36 reqtime:0.149 apptime:0.149 vhost:api.p2pquake.net P2P地震情報サーバのアクセスログ
  9. 異常検知(人力) 異常時にも気づきやすい time:07/Sep/2019:10:52:58 +0900 host:xx:xx:xx:xx:xx:xx:xx:xx forwardedfor:- req:GET /v2/jma/quake HTTP/1.1 status:502

    size:568 referer:- ua:Mozilla/5.0 (Windows; U; ja-JP) AppleWebKit/533.19.4 (KHTML, like Gecko) AdobeAIR/32.0 reqtime:0.000 apptime:0.000 vhost:api.p2pquake.net P2P地震情報サーバのアクセスログ