SRE的観点から日常を振り返る

1 © Metaps Holdings, Inc. SRE的観点から日常を振り返る  プラットフォーム戦略部 SREチーフエンジニア山北尚道
株式会社メタップスホールディングス 2024年2月15日  © Metaps Holdings, Inc.

2 © Metaps Holdings, Inc. プロフィール  ベトナム・ハノイでのオフショア事業立ち上げからキャリアをスタートし、アプリケーション開発からマネジメントまでを経験    2015年に当社参画。徐々にクラウドインフラにも携わり、現在は横断的な
テックリードやSREチーフエンジニアとして従事    「AWS DevDay Tokyo 2019」登壇、「Amazon Web Services ブログ」「builders.flash」寄稿などプラットフォーム戦略部 SREチーフエンジニア山北尚道 @sre_yamakita

3 © Metaps Holdings, Inc. SREとは  • SREはSite Reliability Engineeringを実現するエンジニアリング手法
• システムの全体像を俯瞰的に捉え、インフラの自動化、障害対応、アプリケーションの最適化を通じて可用性を確保し、信頼性を高めることを目的とする • 主な指標 ◦ サービスレベル目標 (SLO) ◦ 監視 ◦ モニタリング ◦ ポストモーテム ◦ トイルの削減

4 © Metaps Holdings, Inc. 監視 At the most basic
level, monitoring allows you to gain visibility into a system, which is a core requirement for judging service health and diagnosing your service when things go wrong. 最も基本的なレベルでは、モニタリングによってシステムを可視化することができます。これは、サービスの健全性を判断し、問題が発生した場合にサービスを診断するための中核的な要件です。 https://sre.google/workbook/monitoring/

5 © Metaps Holdings, Inc. これって日常生活にも取り込めるのでは?

6 © Metaps Holdings, Inc. Case1. 業務中のツイート監視でエンジニアの負荷を把握可能に

7 © Metaps Holdings, Inc. 課題  • 10数年前、当時の職場で仕事中サッカーのツイートばかり投稿するQAエンジニアがいた (アラート反応めちゃ早い)
• 当然サッカーのシーズンが開幕すると投稿数が増え、業務チャネルへの返事が遅くなる ◦ スパイクアクセスに伴う社内コミュニケーションの遅延が発生

8 © Metaps Holdings, Inc. 対策  Twitter APIから1時間辺りのツイート頻度を取得、監視ツールにカスタムメトリクスとしてデータを送信するよう設定  監視ツールは一定のしきい値を超えるとインフラチャネルにアラートを送信
  QAはサッカーの試合が始まると高速ツイートを始める監視ツールからのアラートで本人が慌てる   Twiterの投稿頻度を計測することで、エンジニアの作業負荷を可視化できた   該当エンジニアはサッカーの試合が始まると机の下で高速ツイートが始める  

9 © Metaps Holdings, Inc. Case2. エナジードリンクと心拍数の関係性を見える化

10 © Metaps Holdings, Inc. 課題と対策  2016年ごろのメタップスは某エナジードリンクが飲み放題だった。自販機のボタン押すだけで湧き水のようにエナジーが得られる環境   飲みすぎて体調悪化・休職扱いに
  当時LINE APIやFitbitなどのヘルスアプリが流行ってたので、Fitbit + LINE API + サーバーレスで自分の健康状態を可視化   血糖値スパイクを起こしてた 

11 © Metaps Holdings, Inc. アウトプット 

12 © Metaps Holdings, Inc. ポストモーテム文化 When an incident occurs,
we fix the underlying issue, and services return to their normal operating conditions. Unless we have some formalized process of learning from these incidents in place, they may recur ad infinitum. Left unchecked, incidents can multiply in complexity or even cascade, overwhelming a system and its operators and ultimately impacting our users. Therefore, postmortems are an essential tool for SRE. インシデントが発生すると、根本的な問題が解決され、サービスは通常の動作状態に戻ります。これらの事件から学ぶための何らかの正式なプロセスを整備しない限り、事件は無限に繰り返される可能性があります。チェックを怠ると、インシデントが複雑化したり連鎖的に発生したりして、システムとそのオペレーターに負担をかけ、最終的にはユーザーに影響を与える可能性があります。したがって、事後分析は SRE にとって不可欠なツールです。 https://sre.google/workbook/monitoring/

13 © Metaps Holdings, Inc. Case3. 娘が何を言ってるか分からない

14 © Metaps Holdings, Inc. 課題  小学校3年生の娘は学校であった出来事を話してくれるが、時系列に話が整理されていないので何を言ってるか分からない   ある日、友だちに嫌われちゃったかも、と泣きながら話しかけてきた
  ポストモーテム 

15 © Metaps Holdings, Inc. 改善 

17 © Metaps Holdings, Inc. トイルの削減 In SRE, we want
to spend time on long-term engineering project work instead of operational work. Because the term operational work may be misinterpreted, we use a specific word: toil. SRE では、運用作業ではなく、長期的なエンジニアリングプロジェクト作業に時間を費やしたいと考えています。運用作業という用語は誤解される可能性があるため、「労苦」という特定の用語を使用します。 https://sre.google/sre-book/eliminating-toil/

22 © Metaps Holdings, Inc. 最近の取り組み（その2）  • srestというサービスを始めました! ◦ srest.io
• srestはAWSやDatadogを始めとするイベントログを横断して可視化する SREのための新しいダッシュボードです! • 無償期間もあるので是非お試しください

SRE的観点から日常を振り返る

SRE的観点から日常を振り返る

Naomichi Yamakita

More Decks by Naomichi Yamakita

Featured

Transcript

1 © Metaps Holdings, Inc. SRE的観点から日常を振り返る  プラットフォーム戦略部 SREチーフエンジニア山北尚道

3 © Metaps Holdings, Inc. SREとは  • SREはSite Reliability Engineeringを実現するエンジニアリング手法

4 © Metaps Holdings, Inc. 監視 At the most basic

5 © Metaps Holdings, Inc. これって日常生活にも取り込めるのでは?

6 © Metaps Holdings, Inc. Case1. 業務中のツイート監視でエンジニアの負荷を把握可能に

7 © Metaps Holdings, Inc. 課題  • 10数年前、当時の職場で仕事中サッカーのツイートばかり投稿するQAエンジニアがいた (アラート反応めちゃ早い)

8 © Metaps Holdings, Inc. 対策  Twitter APIから1時間辺りのツイート頻度を取得、監視ツールにカスタムメトリクスとしてデータを送信するよう設定  監視ツールは一定のしきい値を超えるとインフラチャネルにアラートを送信

9 © Metaps Holdings, Inc. Case2. エナジードリンクと心拍数の関係性を見える化

10 © Metaps Holdings, Inc. 課題と対策  2016年ごろのメタップスは某エナジードリンクが飲み放題だった。自販機のボタン押すだけで湧き水のようにエナジーが得られる環境   飲みすぎて体調悪化・休職扱いに

11 © Metaps Holdings, Inc. アウトプット

12 © Metaps Holdings, Inc. ポストモーテム文化 When an incident occurs,

13 © Metaps Holdings, Inc. Case3. 娘が何を言ってるか分からない

14 © Metaps Holdings, Inc. 課題  小学校3年生の娘は学校であった出来事を話してくれるが、時系列に話が整理されていないので何を言ってるか分からない   ある日、友だちに嫌われちゃったかも、と泣きながら話しかけてきた

15 © Metaps Holdings, Inc. 改善

16 © Metaps Holdings, Inc. アウトプット

17 © Metaps Holdings, Inc. トイルの削減 In SRE, we want

18 © Metaps Holdings, Inc. Case4. 業務を効率化したい

19 © Metaps Holdings, Inc. 課題  • SREチームが監視するプロダクトは13、エンジニアは常時5人体制 • 一人辺り2〜3のプロダクトを監視しつつ24/365のオンコール体制

20 © Metaps Holdings, Inc. 最近の取り組み（その1）  • 過去のプレイブックをベクトルDBに格納し、インシデントが発生した際は Amazon Bedrockから類似するドキュメントを提案する仕組みを実装

21 © Metaps Holdings, Inc. 最近の取り組み（その1）  • Amazon BedrockでLLMを使ったベクトル検索を試す

22 © Metaps Holdings, Inc. 最近の取り組み（その2）  • srestというサービスを始めました! ◦ srest.io

23 © Metaps Holdings, Inc. 本日のまとめ  • 日常生活の中でもSREの原則を活かすことができる • データを可視化することで新たな気づきを得ることができる