Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
オブザーバビリティ文化を組織に浸透させるには / install observabil...
Search
mackerelio
August 07, 2025
Technology
0
110
オブザーバビリティ文化を組織に浸透させるには / install observability culture
2025-08-07 国産サービスで実践するオブザーバビリティ入門
https://mackerelio.connpass.com/event/361275/
mackerelio
August 07, 2025
Tweet
Share
More Decks by mackerelio
See All by mackerelio
OpenTelemetryセマンティック規約の恩恵とMackerel APMにおける活用例 / SRE NEXT 2025
mackerelio
3
2.6k
アプリケーションの中身が見える!Mackerel APMの全貌と展望 / Mackerel APMリリースパーティ
mackerelio
0
710
Mackerel CREのご紹介
mackerelio
0
99
Mackerelが取り組むオブザーバビリティ - Mackerel Tech Day
mackerelio
0
1k
Mackerelの2023年ふりかえりと 今後のロードマップ
mackerelio
0
1.2k
Mackerel開発者が使ってほしいAWSインテグレーションの機能4選
mackerelio
0
130
Mackerelの現在と未来 2023 / Mackerel Drinkup #10
mackerelio
0
200
次世代Mackerelの アーキテクチャ / Mackerel Meetup #14 Next Generation Architecture
mackerelio
0
2.4k
Mackerelの現在と未来 2023 / Mackerel Meetup #14
mackerelio
0
2.4k
Other Decks in Technology
See All in Technology
PL/pgSQLの基本と使い所
tameguro
2
220
ユーザー課題を愛し抜く――AI時代のPdM価値
kakehashi
PRO
1
120
【CEDEC2025】『Shadowverse: Worlds Beyond』二度目のDCG開発でゲームをリデザインする~遊びやすさと競技性の両立~
cygames
PRO
1
380
Telemetry APIから学ぶGoogle Cloud ObservabilityとOpenTelemetryの現在 / getting-started-telemetry-api-with-google-cloud
k6s4i53rx
0
160
ファッションコーディネートアプリ「WEAR」における、Vertex AI Vector Searchを利用したレコメンド機能の開発・運用で得られたノウハウの紹介
zozotech
PRO
0
480
僕たちが「開発しやすさ」を求め 模索し続けたアーキテクチャ #アーキテクチャ勉強会_findy
bengo4com
0
2.5k
AI関数が早くなったので試してみよう
kumakura
0
320
Claude Codeは仕様駆動の夢を見ない
gotalab555
23
6.9k
Eval-Centric AI: Agent 開発におけるベストプラクティスの探求
asei
0
140
React Server ComponentsでAPI不要の開発体験
polidog
PRO
0
320
【新卒研修資料】数理最適化 / Mathematical Optimization
brainpadpr
28
13k
2時間で300+テーブルをデータ基盤に連携するためのAI活用 / FukuokaDataEngineer
sansan_randd
0
160
Featured
See All Featured
Become a Pro
speakerdeck
PRO
29
5.5k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
283
13k
Code Reviewing Like a Champion
maltzj
524
40k
Faster Mobile Websites
deanohume
309
31k
BBQ
matthewcrist
89
9.8k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
18
1.1k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
110
20k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
Making the Leap to Tech Lead
cromwellryan
134
9.5k
The Straight Up "How To Draw Better" Workshop
denniskardys
235
140k
Testing 201, or: Great Expectations
jmmastey
45
7.6k
Transcript
ja.mackerel.io 2025-08-07 id:onk オブザーバビリティ文化を 組織に浸透させるには 国産サービスで実践するオブザーバビリティ入門
自己紹介 • 大仲 能史 a.k.a. id:onk • 芸歴20年 ◦ バックエンド〜インフラが主戦場
• 株式会社はてな チーフエンジニア • Mackerel開発チーム エンジニアリングマネージャー 2
力作の完成、 おめでとうございます 3
今日の話 4
オブザーバビリティ文化を 組織に浸透させるには 5
6
よろしくお願いします 7
アジェンダ • Mackerelという国産可観測性プラットフォーム • 定点観測の取り組み ◦ SRE ◦ PWG •
オブザーバビリティを組織に浸透させるには 8
9
“Mackerel” as an Observability Platform 10
サーバー監視サービスとして生まれたMackerel 11
ラベル付きメトリック機能のリリース 12
ラベル付きメトリック機能のリリース • 入力が多次元に ◦ 今までのメトリックは、横軸に時間、縦軸に値のみ ◦ 値にAttributeが付いているので、任意に絞り込める 13
APM機能のリリース 14
APM機能のリリース 15 • ボトルネックを見つける ◦ HTTPエンドポイントごと、DBクエリごとに集計 ◦ エラーの発生箇所ごとに集計 • アプリケーションの中の処理を追跡する
◦ トランザクション単位で処理の流れと時間を可視化
最近のMackerel • 誰でも簡単に始めやすく奥深い可観測性プラットフォーム ◦ サーバー監視はすぐに始められる ◦ ダッシュボードも一瞬で作れる • チームみんなで育てる監視 ◦
Slack上でグラフを見て、そのままコミュニケーション • アプリケーションの振る舞いを監視するAPM ◦ なんとなくの不調を、中を見通せる事実に変える 16
定点観測 1 7
SLO Monitoring • SLO ◦ SREの代表的なプラクティス • プロダクトチーム、プロダクトオーナーの意思決定 ◦ エラーバジェットポリシー
= SLOを満たせなかったら、 機能開発を緩めて信頼性の改善に取り組む • SLI/SLOを改善するフィードバックループ ◦ Revisit Date 18
• SLOを割っているか、割っていたか ◦ バーンレートアラートもあるが この場でも会話している • 対応したがSLOに影響が無いもの ◦ 対応必要ならSLOが足りない •
SLO緩める?厳しくする? SLO Monitoring 19
PWG (Performance Working Group) • サービスの運用状況をチームで見直す月次定例会 • はてなで2009年ぐらいから開催している • SRE本31章と酷似
20
SRE本31章 21
SRE本31章 22 私たちが行うミーティングの中で、平均以上 に有益なものが一つあります。それはプロダ クションミーティングと呼ばれるもので、 SREチームが自分たちと他の参加者に対し、 担当するサービスの状況について十分に注意 を払って明確に説明をすることによって、す べての関係者の全般的な認識を高め、サービ スの運用を改善するために行われます。
SRE本31章 23 定期的なミーティングにおいて設計上の判断 をサービスのパフォーマンスと合わせて考え てみることは、きわめて強力なフィードバッ クループになります。
SRE本31章 24 • プロダクション環境において予定されてい る変更 • メトリクス • 障害 •
ページされたイベント • ページされなかったイベント • これまでのアクションアイテム
PWG (Performance Working Group) • 直近の障害ふりかえり: 対応状況や再発防止策の確認 • 作業ログ: 手作業や臨時作業をふりかえって、根本原因や自動化の機会を探る
• アラート: 発火傾向の分析、閾値の見直し、不要なアラートの削除 • ダッシュボード: サービス状態を俯瞰し、変化を見つける。SLOも確認 • 今日話したいこと: 自由トピック • 今後の変化共有: アクセス傾向が変わるイベント、リリースや構成変更などの予 告 • 出たTODOのIssue化: 話した内容をその場でNext Actionに繋げる • 感想/雑談: ちょっとした気づきやモヤモヤの解消。このアジェンダ自体の見直 しとかも 25
アラート一覧眺めるコーナー 26 • Mackerelのアラート一覧とその傾向を眺める ◦ それぞれがなぜ発生しているのかを話す • 対応していないアラートがあったら ◦ そもそも不要なアラートじゃないか会話する
◦ その場で閾値を変えたり、監視ごと消したり • 頻出しているアラートがあったら ◦ 必要なアラートなら根本対応を検討する
• 議事録を取りつつその場で調べる • 調べきれないならオブザーバビリ ティが足りない ◦ 引き続き調査したり ◦ 計装するIssueを入れたり ダッシュボード
27
• 未来の見通しを議論できる ◦ 利用状況のトレンドや今後の開発予定の共有 ◦ キャパシティプランニング判断 • SREsのソフトスキル向上 ◦ Devに対してタスクを振る機会
• システム構成オンボーディング ◦ アーキテクチャや特性、コンポーネントのオーナーに対する 解像度が上がる PWGの効能 28
PWGの効能 • チームみんなで育てる監視 ◦ その場で会話して編集できる ◦ オオカミ少年アラートの抑制 ◦ ダッシュボードの改善 •
「情報」は意思決定と行動を促すものである ◦ これで意思決定できますか、行動できますか ◦ runbookを書けない監視は存在すべきではない 29
オブザーバビリティ文化を 組織に浸透させるには 3 0
• ツールの効果的な導入 • 開発者も巻き込む • 運用プロセスに組み込む オブザーバビリティ文化を組織に浸透させるには 31
ツールを導入して全体感を見る • Mackerel Agent • クラウドインテグレーション • 外形監視 • 自動計装
• O11yが足りないところを追加で計装する 32
• アプリケーションの中の処理を見る ◦ リソースの監視ではなくAPMならDevの興味範囲 ◦ オブザーバビリティの向上からスタートすると巻き込みやすい ▪ トレース ▪ エラー
• 特にエラーは分かりやすく開発者の領域 ◦ 負荷ではなくバグ 開発者も巻き込む 33
開発者も巻き込む 34 • ダッシュボードを利用した定点観測会 ◦ 全員がシステムの「普段の状態」を共通認識として持てる ▪ SLO、各コンポーネントの強弱、最近の傾向、限界値 ◦ 何かが起きたときに「異常な状態」に気づきやすくなる
▪ 勘と経験に頼った探索にものすごく役に立つ ▪ オブザーバビリティがある状態でも更に爆速に • 自分の守備範囲と思わせる ◦ 知識が無い→学習している、に変えたい
認知負荷 35 • 課題内在性負荷 ◦ 学習対象そのものの複雑さによる負荷 ◦ 専門用語が多い、概念が抽象的である • 課題外在性負荷
◦ 学習内容とは直接関係のない負荷 ◦ 分かりにくい説明、不要な情報過多 • 学習関連負荷 ◦ 知識を定着させるために必要な負荷 ◦ 問題を解く、他の人と議論する
• 使い道に合わせて情報量を減らす • 上から下に流れていくよう構成する ◦ 外側のコンポーネントを上に、内側のコンポーネントは下に • グラフに補助線を入れる ◦ 普段0.1〜0.2で、危険域が90.0、というメトリックもある
◦ 10.0程度の揺らぎは普段の100倍だけど、ただのノイズ • Markdownウィジェットを使って適宜説明を入れる 負荷をできる限り下げるダッシュボードの構築 36
運用プロセスに組み込む • リリース前後でAPMの画面を確認する ◦ 指標が悪化したらロールバックや、機能トグルをオフに • アラートを設定し、普段のチャットに通知が来るように ◦ インフラチャンネルではなく、開発チャンネルに通知すると Critical通知が来たら全員で対応するプロセスになりやすい
• 障害時に見るダッシュボード ◦ 初動フローに「ダッシュボードを確認する」と明記しておく ◦ ポストモーテムにもスクショやリンクを沢山貼って見慣れる 37
運用プロセスに組み込む 38 • 障害対応演習を定期的に行う ◦ 学習関連負荷をかける わかばちゃんと学ぶ サーバー監視 湊川あい 粕谷大輔
C&R研究所
まとめ 3 9
• Mackerelは可観測性プラットフォームです ◦ 最近はアプリケーションの中も見られるようになっています • 定点観測を義務づける=運用プロセスに組み込むと良い ◦ SLOをRevisit Date通りに運用する ◦
チームを徐々に育成していく • オブザーバビリティ文化を組織に浸透させるには ◦ 組織の運用プロセスに組み込む ◦ 認知負荷をできる限り下げながら、組織に対してパッチを当てる まとめ 40