Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SRE的観点から日常を振り返る

Naomichi Yamakita
February 15, 2024
840

 SRE的観点から日常を振り返る

Naomichi Yamakita

February 15, 2024
Tweet

Transcript

  1. 1 © Metaps Holdings, Inc. SRE的観点から日常を振り返る
 プラットフォーム戦略部 SREチーフエンジニア 山北 尚道

    株式会社メタップスホールディングス 2024年2月15日
 © Metaps Holdings, Inc.
  2. 2 © Metaps Holdings, Inc. プロフィール
 ベトナム・ハノイでのオフショア事業立ち上げからキャリアをスタートし、ア プリケーション開発からマネジメントまでを経験
 
 2015年に当社参画。徐々にクラウドインフラにも携わり、現在は横断的な

    テックリードやSREチーフエンジニアとして従事
 
 「AWS DevDay Tokyo 2019」登壇、「Amazon Web Services ブログ」 「builders.flash」寄稿など プラットフォーム戦略部 SREチーフエンジニア 山北 尚道 @sre_yamakita
  3. 3 © Metaps Holdings, Inc. SREとは
 • SREはSite Reliability Engineeringを実現するエンジニアリング手法

    • システムの全体像を俯瞰的に捉え、インフラの自動化、障害対応、アプリケーションの最適化を通じ て可用性を確保し、信頼性を高めることを目的とする • 主な指標 ◦ サービスレベル目標 (SLO) ◦ 監視 ◦ モニタリング ◦ ポストモーテム ◦ トイルの削減
  4. 4 © Metaps Holdings, Inc. 監視 At the most basic

    level, monitoring allows you to gain visibility into a system, which is a core requirement for judging service health and diagnosing your service when things go wrong. 最も基本的なレベルでは、モニタリングによってシ ステムを可視化することができます。これは、サー ビスの健全性を判断し、問題が発生した場合に サービスを診断するための中核的な要件です。 https://sre.google/workbook/monitoring/
  5. 7 © Metaps Holdings, Inc. 課題
 • 10数年前、当時の職場で仕事中サッカーのツイートばかり投稿するQAエンジニ アがいた (アラート反応めちゃ早い)

    • 当然サッカーのシーズンが開幕すると投稿数が増え、業務チャネルへの返事が 遅くなる ◦ スパイクアクセスに伴う社内コミュニケーションの遅延が発生
  6. 8 © Metaps Holdings, Inc. 対策
 Twitter APIから1時間辺りのツイート頻度を取得、監視ツールにカスタムメトリクスとし てデータを送信するよう設定
 監視ツールは一定のしきい値を超えるとインフラチャネルにアラートを送信

    
 QAはサッカーの試合が始まると高速ツイートを始める 監視ツールからのアラートで本人が慌てる 
 Twiterの投稿頻度を計測することで、エンジニアの作業負荷を可視化できた 
 該当エンジニアはサッカーの試合が始まると机の下で高速ツイートが始める 

  7. 10 © Metaps Holdings, Inc. 課題と対策
 2016年ごろのメタップスは某エナジードリンクが飲み放題だった。自販機のボタン押 すだけで湧き水のようにエナジーが得られる環境 
 飲みすぎて体調悪化・休職扱いに

    
 当時LINE APIやFitbitなどのヘルスアプリが流行ってたので、Fitbit + LINE API + サーバーレスで自分の健康状態を可視化 
 血糖値スパイクを起こしてた

  8. 12 © Metaps Holdings, Inc. ポストモーテム文化 When an incident occurs,

    we fix the underlying issue, and services return to their normal operating conditions. Unless we have some formalized process of learning from these incidents in place, they may recur ad infinitum. Left unchecked, incidents can multiply in complexity or even cascade, overwhelming a system and its operators and ultimately impacting our users. Therefore, postmortems are an essential tool for SRE. インシデントが発生すると、根本的な問題が解決され、サー ビスは通常の動作状態に戻ります。 これらの事件から学ぶ ための何らかの正式なプロセスを整備しない限り、事件は 無限に繰り返される可能性があります。 チェックを怠ると、 インシデントが複雑化したり連鎖的に発生したりして、シス テムとそのオペレーターに負担をかけ、最終的にはユー ザーに影響を与える可能性があります。 したがって、事後 分析は SRE にとって不可欠なツールです。 https://sre.google/workbook/monitoring/
  9. 17 © Metaps Holdings, Inc. トイルの削減 In SRE, we want

    to spend time on long-term engineering project work instead of operational work. Because the term operational work may be misinterpreted, we use a specific word: toil. SRE では、運用作業ではなく、長期的なエン ジニアリング プロジェクト作業に時間を費や したいと考えています。 運用作業という用語 は誤解される可能性があるため、「労苦」とい う特定の用語を使用します。 https://sre.google/sre-book/eliminating-toil/
  10. 22 © Metaps Holdings, Inc. 最近の取り組み(その2)
 • srestというサービスを始めました! ◦ srest.io

    • srestはAWSやDatadogを始めとする イベントログを横断して可視化する SREのための新しいダッシュボードです! • 無償期間もあるので是非お試しください