Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
オブザーバビリティ文化を組織に浸透させるには / install observabil...
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
mackerelio
August 07, 2025
Technology
0
940
オブザーバビリティ文化を組織に浸透させるには / install observability culture
2025-08-07 国産サービスで実践するオブザーバビリティ入門
https://mackerelio.connpass.com/event/361275/
mackerelio
August 07, 2025
Tweet
Share
More Decks by mackerelio
See All by mackerelio
クラウドネイティブに支える従量課金集計―Mackerel「daifukucho」の設計と運用
mackerelio
1
120
OpenTelemetryセマンティック規約の恩恵とMackerel APMにおける活用例 / SRE NEXT 2025
mackerelio
3
3.6k
アプリケーションの中身が見える!Mackerel APMの全貌と展望 / Mackerel APMリリースパーティ
mackerelio
0
980
Mackerel CREのご紹介
mackerelio
0
140
Mackerelが取り組むオブザーバビリティ - Mackerel Tech Day
mackerelio
0
1.2k
Mackerelの2023年ふりかえりと 今後のロードマップ
mackerelio
0
1.3k
Mackerel開発者が使ってほしいAWSインテグレーションの機能4選
mackerelio
0
190
Mackerelの現在と未来 2023 / Mackerel Drinkup #10
mackerelio
0
220
次世代Mackerelの アーキテクチャ / Mackerel Meetup #14 Next Generation Architecture
mackerelio
0
2.6k
Other Decks in Technology
See All in Technology
競争優位を生み出す戦略的内製開発の実践技法
masuda220
PRO
2
420
失敗できる意思決定とソフトウェアとの正しい歩き方_-_変化と向き合う選択肢/ Designing for Reversible Decisions
soudai
PRO
7
520
Scrum Fest Morioka 2026
kawaguti
PRO
2
620
なぜAIは組織を速くしないのか 令和の腑分け
sugino
12
5.1k
あすけん_Developers_Summit_2026_-_Vibe_Coding起点での新機能開発で__あすけん_が乗り越えた壁.pdf
iwahiro
0
740
ブログの作成に音声AIツールを使って音声入力しようとした話
smt7174
1
170
論文検索を日本語でできるアプリを作ってみた
sailen2
0
110
Oracle Cloud Infrastructureデータベース・クラウド:各バージョンのサポート期間
oracle4engineer
PRO
57
47k
技術選定 したい人 したくない人
shirayanagiryuji
0
370
作るべきものと向き合う - ecspresso 8年間の開発史から学ぶ技術選定 / 技術選定con findy 2026
fujiwara3
4
550
サイボウズ 開発本部採用ピッチ / Cybozu Engineer Recruit
cybozuinsideout
PRO
10
74k
サンタコンペ2025完全攻略 ~お前らの焼きなましは遅すぎる~
terryu16
1
360
Featured
See All Featured
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
1.8k
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
81
Design in an AI World
tapps
0
160
How GitHub (no longer) Works
holman
316
140k
Music & Morning Musume
bryan
47
7.1k
Faster Mobile Websites
deanohume
310
31k
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
130
Why Our Code Smells
bkeepers
PRO
340
58k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
1
130
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
270
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.1k
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
110
Transcript
ja.mackerel.io 2025-08-07 id:onk オブザーバビリティ文化を 組織に浸透させるには 国産サービスで実践するオブザーバビリティ入門
自己紹介 • 大仲 能史 a.k.a. id:onk • 芸歴20年 ◦ バックエンド〜インフラが主戦場
• 株式会社はてな チーフエンジニア • Mackerel開発チーム エンジニアリングマネージャー 2
力作の完成、 おめでとうございます 3
今日の話 4
オブザーバビリティ文化を 組織に浸透させるには 5
6
よろしくお願いします 7
アジェンダ • Mackerelという国産可観測性プラットフォーム • 定点観測の取り組み ◦ SRE ◦ PWG •
オブザーバビリティを組織に浸透させるには 8
9
“Mackerel” as an Observability Platform 10
サーバー監視サービスとして生まれたMackerel 11
ラベル付きメトリック機能のリリース 12
ラベル付きメトリック機能のリリース • 入力が多次元に ◦ 今までのメトリックは、横軸に時間、縦軸に値のみ ◦ 値にAttributeが付いているので、任意に絞り込める 13
APM機能のリリース 14
APM機能のリリース 15 • ボトルネックを見つける ◦ HTTPエンドポイントごと、DBクエリごとに集計 ◦ エラーの発生箇所ごとに集計 • アプリケーションの中の処理を追跡する
◦ トランザクション単位で処理の流れと時間を可視化
最近のMackerel • 誰でも簡単に始めやすく奥深い可観測性プラットフォーム ◦ サーバー監視はすぐに始められる ◦ ダッシュボードも一瞬で作れる • チームみんなで育てる監視 ◦
Slack上でグラフを見て、そのままコミュニケーション • アプリケーションの振る舞いを監視するAPM ◦ なんとなくの不調を、中を見通せる事実に変える 16
定点観測 1 7
SLO Monitoring • SLO ◦ SREの代表的なプラクティス • プロダクトチーム、プロダクトオーナーの意思決定 ◦ エラーバジェットポリシー
= SLOを満たせなかったら、 機能開発を緩めて信頼性の改善に取り組む • SLI/SLOを改善するフィードバックループ ◦ Revisit Date 18
• SLOを割っているか、割っていたか ◦ バーンレートアラートもあるが この場でも会話している • 対応したがSLOに影響が無いもの ◦ 対応必要ならSLOが足りない •
SLO緩める?厳しくする? SLO Monitoring 19
PWG (Performance Working Group) • サービスの運用状況をチームで見直す月次定例会 • はてなで2009年ぐらいから開催している • SRE本31章と酷似
20
SRE本31章 21
SRE本31章 22 私たちが行うミーティングの中で、平均以上 に有益なものが一つあります。それはプロダ クションミーティングと呼ばれるもので、 SREチームが自分たちと他の参加者に対し、 担当するサービスの状況について十分に注意 を払って明確に説明をすることによって、す べての関係者の全般的な認識を高め、サービ スの運用を改善するために行われます。
SRE本31章 23 定期的なミーティングにおいて設計上の判断 をサービスのパフォーマンスと合わせて考え てみることは、きわめて強力なフィードバッ クループになります。
SRE本31章 24 • プロダクション環境において予定されてい る変更 • メトリクス • 障害 •
ページされたイベント • ページされなかったイベント • これまでのアクションアイテム
PWG (Performance Working Group) • 直近の障害ふりかえり: 対応状況や再発防止策の確認 • 作業ログ: 手作業や臨時作業をふりかえって、根本原因や自動化の機会を探る
• アラート: 発火傾向の分析、閾値の見直し、不要なアラートの削除 • ダッシュボード: サービス状態を俯瞰し、変化を見つける。SLOも確認 • 今日話したいこと: 自由トピック • 今後の変化共有: アクセス傾向が変わるイベント、リリースや構成変更などの予 告 • 出たTODOのIssue化: 話した内容をその場でNext Actionに繋げる • 感想/雑談: ちょっとした気づきやモヤモヤの解消。このアジェンダ自体の見直 しとかも 25
アラート一覧眺めるコーナー 26 • Mackerelのアラート一覧とその傾向を眺める ◦ それぞれがなぜ発生しているのかを話す • 対応していないアラートがあったら ◦ そもそも不要なアラートじゃないか会話する
◦ その場で閾値を変えたり、監視ごと消したり • 頻出しているアラートがあったら ◦ 必要なアラートなら根本対応を検討する
• 議事録を取りつつその場で調べる • 調べきれないならオブザーバビリ ティが足りない ◦ 引き続き調査したり ◦ 計装するIssueを入れたり ダッシュボード
27
• 未来の見通しを議論できる ◦ 利用状況のトレンドや今後の開発予定の共有 ◦ キャパシティプランニング判断 • SREsのソフトスキル向上 ◦ Devに対してタスクを振る機会
• システム構成オンボーディング ◦ アーキテクチャや特性、コンポーネントのオーナーに対する 解像度が上がる PWGの効能 28
PWGの効能 • チームみんなで育てる監視 ◦ その場で会話して編集できる ◦ オオカミ少年アラートの抑制 ◦ ダッシュボードの改善 •
「情報」は意思決定と行動を促すものである ◦ これで意思決定できますか、行動できますか ◦ runbookを書けない監視は存在すべきではない 29
オブザーバビリティ文化を 組織に浸透させるには 3 0
• ツールの効果的な導入 • 開発者も巻き込む • 運用プロセスに組み込む オブザーバビリティ文化を組織に浸透させるには 31
ツールを導入して全体感を見る • Mackerel Agent • クラウドインテグレーション • 外形監視 • 自動計装
• O11yが足りないところを追加で計装する 32
• アプリケーションの中の処理を見る ◦ リソースの監視ではなくAPMならDevの興味範囲 ◦ オブザーバビリティの向上からスタートすると巻き込みやすい ▪ トレース ▪ エラー
• 特にエラーは分かりやすく開発者の領域 ◦ 負荷ではなくバグ 開発者も巻き込む 33
開発者も巻き込む 34 • ダッシュボードを利用した定点観測会 ◦ 全員がシステムの「普段の状態」を共通認識として持てる ▪ SLO、各コンポーネントの強弱、最近の傾向、限界値 ◦ 何かが起きたときに「異常な状態」に気づきやすくなる
▪ 勘と経験に頼った探索にものすごく役に立つ ▪ オブザーバビリティがある状態でも更に爆速に • 自分の守備範囲と思わせる ◦ 知識が無い→学習している、に変えたい
認知負荷 35 • 課題内在性負荷 ◦ 学習対象そのものの複雑さによる負荷 ◦ 専門用語が多い、概念が抽象的である • 課題外在性負荷
◦ 学習内容とは直接関係のない負荷 ◦ 分かりにくい説明、不要な情報過多 • 学習関連負荷 ◦ 知識を定着させるために必要な負荷 ◦ 問題を解く、他の人と議論する
• 使い道に合わせて情報量を減らす • 上から下に流れていくよう構成する ◦ 外側のコンポーネントを上に、内側のコンポーネントは下に • グラフに補助線を入れる ◦ 普段0.1〜0.2で、危険域が90.0、というメトリックもある
◦ 10.0程度の揺らぎは普段の100倍だけど、ただのノイズ • Markdownウィジェットを使って適宜説明を入れる 負荷をできる限り下げるダッシュボードの構築 36
運用プロセスに組み込む • リリース前後でAPMの画面を確認する ◦ 指標が悪化したらロールバックや、機能トグルをオフに • アラートを設定し、普段のチャットに通知が来るように ◦ インフラチャンネルではなく、開発チャンネルに通知すると Critical通知が来たら全員で対応するプロセスになりやすい
• 障害時に見るダッシュボード ◦ 初動フローに「ダッシュボードを確認する」と明記しておく ◦ ポストモーテムにもスクショやリンクを沢山貼って見慣れる 37
運用プロセスに組み込む 38 • 障害対応演習を定期的に行う ◦ 学習関連負荷をかける わかばちゃんと学ぶ サーバー監視 湊川あい 粕谷大輔
C&R研究所
まとめ 3 9
• Mackerelは可観測性プラットフォームです ◦ 最近はアプリケーションの中も見られるようになっています • 定点観測を義務づける=運用プロセスに組み込むと良い ◦ SLOをRevisit Date通りに運用する ◦
チームを徐々に育成していく • オブザーバビリティ文化を組織に浸透させるには ◦ 組織の運用プロセスに組み込む ◦ 認知負荷をできる限り下げながら、組織に対してパッチを当てる まとめ 40