Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ジョインしたてのSREが信頼性向上に取り組む (監視設計編)
Search
coconala_engineer
February 15, 2024
Technology
0
1k
ジョインしたてのSREが信頼性向上に取り組む (監視設計編)
2024-02-14に開催されたファインディ株式会社様主催のイベント「TechBrew in 東京 〜SRE大集合!信頼性を高める取り組み〜」でのKKの登壇資料
coconala_engineer
February 15, 2024
Tweet
Share
More Decks by coconala_engineer
See All by coconala_engineer
SIEMを利活用した信頼性向上プロセスと実践
coconala_engineer
0
13
Cursorを使って 新機能開発してみて 感じたこと
coconala_engineer
0
95
社内にAIレビューツール導入してみた
coconala_engineer
0
93
犯人はE2Eテスト? 並列実行で開発チームを救え!
coconala_engineer
0
42
サービスを止めるな! DDoS攻撃へのスマートな備えと最前線の事例
coconala_engineer
2
280
SREの次のキャリアの道しるべ 〜SREがマネジメントレイヤーに挑戦して、 気づいたこととTips〜
coconala_engineer
2
5.8k
ココナラiOSチームの生成AI利用
coconala_engineer
0
45
AIと向き合う若手エンジニアの責任
coconala_engineer
0
53
GraphQLを活用したリアーキテクチャに対応するSLI/Oの再設計
coconala_engineer
0
330
Other Decks in Technology
See All in Technology
下手な強制、ダメ!絶対! 「ガードレール」を「檻」にさせない"ガバナンス"の取り方とは?
tsukaman
2
460
AIエージェント開発用SDKとローカルLLMをLINE Botと組み合わせてみた / LINEを使ったLT大会 #14
you
PRO
0
130
株式会社ログラス - 会社説明資料【エンジニア】/ Loglass Engineer
loglass2019
4
65k
5年目から始める Vue3 サイト改善 #frontendo
tacck
PRO
3
230
品質視点から考える組織デザイン/Organizational Design from Quality
mii3king
0
210
20250912_RPALT_データを集める→とっ散らかる問題_Obsidian紹介
ratsbane666
0
100
KotlinConf 2025_イベントレポート
sony
1
140
slog.Handlerのよくある実装ミス
sakiengineer
4
450
roppongirb_20250911
igaiga
1
240
2025/09/16 仕様駆動開発とAI-DLCが導くAI駆動開発の新フェーズ
masahiro_okamura
0
110
DroidKaigi 2025 Androidエンジニアとしてのキャリア
mhidaka
2
380
Automating Web Accessibility Testing with AI Agents
maminami373
0
1.3k
Featured
See All Featured
Six Lessons from altMBA
skipperchong
28
4k
Making the Leap to Tech Lead
cromwellryan
135
9.5k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
RailsConf 2023
tenderlove
30
1.2k
The Power of CSS Pseudo Elements
geoffreycrofte
77
6k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Rails Girls Zürich Keynote
gr2m
95
14k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
33
2.4k
Making Projects Easy
brettharned
117
6.4k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
Transcript
Copyright coconala Inc. All Rights Reserved. ジョインしたてのSREが 信頼性向上に取り組む (監視設計編) 2024/02/14
TechBrew in 東京 〜SRE大集合!信頼性を高める取り組み〜 株式会社ココナラ KK
Copyright coconala Inc. All Rights Reserved. Agenda 自己紹介 監視設計の取り組みに至るまで 新米SREなりの監視設計の戦い方
今回の監視設計での技術的なポイント 2 1 2 3 4 5
Copyright coconala Inc. All Rights Reserved. 自己紹介 本編にもちょっと関係する私のバックグラウンド chapter 01
3
Copyright coconala Inc. All Rights Reserved. - 2020-04、大学卒業後にSIerへ入社 - PMO
: インフラエンジニア = 7 : 3 くらいの割合で3年間働く - 2023-05にココナラにジョイン インフラ・SRE チームに所属 - 漫才師 オードリーのファン 自己紹介 1 新卒 → PMO 兼 インフラエンジニア(3年) → SRE 4
Copyright coconala Inc. All Rights Reserved. 監視設計の取り組みに至るまで chapter 02 ※注釈テキストがここに入る
5
Copyright coconala Inc. All Rights Reserved. 監視設計の取り組みに至るまで 2 インフラ・SREチームの役割 6
プロジェクト - 会社全体で推進する プロジェクトへの参画 - メンバー2名1組で参画す る ミッション - 中規模・大規模の 技術的課題 - 1 ~ 2 人で対応する - 計画 → 実行 → 運用整備 を対応者の主導で行う リアクティブ - 小規模の技術的課題 - トイルの削減 - 他チームからの依頼 - インフラの メンテナンス対応
Copyright coconala Inc. All Rights Reserved. 監視設計の取り組みに至るまで 2 インフラ・SREチームの役割 7
プロジェクト - 会社全体で推進する プロジェクトへの参画 - メンバー2名1組で参画す る ミッション - 中規模・大規模の 技術的課題 - 1 ~ 2 人で対応する - 計画 → 実行 → 運用整備 を対応者の主導で行う リアクティブ - 小規模の技術的課題 - トイルの削減 - 他チームからの依頼 - インフラの メンテナンス対応
Copyright coconala Inc. All Rights Reserved. 監視設計の取り組みに至るまで 2 監視設定およびアラートの整備・統合 8
このミッションに対して、打ち手を考え、実 装し、運用ラインに乗せる アサイン当初の私の頭の中 - 監視システムのあるべき姿って? - どうなっていたらこのミッションを達成したことになる? - ココナラの監視システムで足りてない部分・課題は? - 最短で、最大の価値を出すにはどう優先順位をつける?
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 足りない知識・知恵をバックグラウンドで補う chapter 03
9
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 とにかくインプット 10
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ココナラに今、最適な監視って? 11
ベストプラクティスは理解したけど、 そのままココナラに適用できる訳ではない...
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ココナラに今、最適な監視って? 12
ベストプラクティスは理解したけど、 そのままココナラに適用できる訳ではない... - 誰がこのダッシュボードを見るのか? - このダッシュボードの目的は何か? (Jeffery D. Smith (2022) システム運用アンチパターン 株式会社オライリー・ジャパン) これって前職で叩き込まれた5W1Hでは!?
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークをエンジニアリングに応用する 13
アプリケーション開発に RailsやGinなどのフレームワークがあるように システム・アプリケーション設計・要件定義では ビジネスフレームワークが使える \ おすすめ! / - 歴戦のエンジニアが体得している”勘”に、分析で辿り着く - リーダーや経営層が納得できる説明を用意する - 自分の頭の中を整理でき、ドキュメントとして残せる
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークを使う(ゴール設定) 14
AsIs / Tobe 分析 - 現状と理想から課題を抽出 ロジカルツリー - 課題の深掘り ロードマップ - ゴールまでの道のりを示す
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークを使う(監視設計) 15
5W1Hで、メトリクス監視の監視設計を行う - Why, Who, Whenから要件を導く Q. A. 要件 (Why) 監視システム改善の 目的は何か? - アラート抜け漏れの削減 - 抜け漏れのない状態の継続 - システム成長に伴う拡張が容易 - アラートの網羅性担保 (Who) 対象者は誰か? - インフラ・SREチーム - 習得が容易 (When) 監視のユースケース は? - 障害発生時の即時アラート発報 - インシデントの予兆検知・原因特定 - パフォーマンスチューニング - メトリクス転送・アラート発報の即時性 - カスタマイズが容易
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークを使う(監視設計) 16
5W1Hで、メトリクス監視の監視設計を行う - 要件からWhere, What, How(監視システムの姿)を明らかにする (Where) 使用する監視システム (What) 何を監視するか? (How) 実装と運用の方法 - Terraformで管理する (datadog_monitor_json と templatefile関数の利用) - Amazon CloudWatch Metric Streamsの利用 - リソース追加・削除時の 対応ドキュメントの作成
Copyright coconala Inc. All Rights Reserved. 新米SREなりの監視設計の戦い方 3 ビジネスフレームワークを使う(監視設計)
Copyright coconala Inc. All Rights Reserved. 今回の監視設計での技術的なポイント 迅速な検知と継続的な改善の下準備 chapter 04
18
Copyright coconala Inc. All Rights Reserved. 最大15分あったメトリクス転送のラグを、 3分程度まで短縮 - 2021-03-31
GA - CloudWatchのメトリクスをFirehoseでストリーミング デフォルトはdatadogからCloudWatchをポーリング - CloudWatchとdatadogのメトリクス反映の差は、 Firehoseのバッファ間隔程度 (デフォルト60秒) 今回の監視設計での技術的なポイント 4 CloudWatch Metric Streamsで即時性を担保する 19
Copyright coconala Inc. All Rights Reserved. 閾値のカーディナリティが高く、管理が複雑 になりがちなアラートの管理を楽にする 今回の監視設計での技術的なポイント 4
datadog_monitor_json とtemplatefile関数の利用 20 - Datadog Monitorの設定をjsonで管理できるリソース “datadog_monitor_json” - jsonなどのfile内変数に値を代入できるtemplatefile関数 これを組み合わせて、monitorのTerraformコード管理を楽にする 本日登壇の森さんの記事を参考にさせていただいてます! ・TerraformでDatadogモニターを実装するならdatadog_monitor_jsonを使おう ( https://zenn.dev/yuta28/articles/datadog_monitor_json_terraform )
Copyright coconala Inc. All Rights Reserved. 21 以上です!