$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
オブザーバビリティ文化を組織に浸透させるには / install observabil...
Search
mackerelio
August 07, 2025
Technology
0
870
オブザーバビリティ文化を組織に浸透させるには / install observability culture
2025-08-07 国産サービスで実践するオブザーバビリティ入門
https://mackerelio.connpass.com/event/361275/
mackerelio
August 07, 2025
Tweet
Share
More Decks by mackerelio
See All by mackerelio
クラウドネイティブに支える従量課金集計―Mackerel「daifukucho」の設計と運用
mackerelio
1
66
OpenTelemetryセマンティック規約の恩恵とMackerel APMにおける活用例 / SRE NEXT 2025
mackerelio
3
3.4k
アプリケーションの中身が見える!Mackerel APMの全貌と展望 / Mackerel APMリリースパーティ
mackerelio
0
870
Mackerel CREのご紹介
mackerelio
0
120
Mackerelが取り組むオブザーバビリティ - Mackerel Tech Day
mackerelio
0
1.2k
Mackerelの2023年ふりかえりと 今後のロードマップ
mackerelio
0
1.3k
Mackerel開発者が使ってほしいAWSインテグレーションの機能4選
mackerelio
0
170
Mackerelの現在と未来 2023 / Mackerel Drinkup #10
mackerelio
0
210
次世代Mackerelの アーキテクチャ / Mackerel Meetup #14 Next Generation Architecture
mackerelio
0
2.5k
Other Decks in Technology
See All in Technology
Sansan Engineering Unit 紹介資料
sansan33
PRO
1
3.3k
Noを伝える技術2025: 爆速合意形成のためのNICOフレームワーク速習 #pmconf2025
aki_iinuma
2
1k
Bakuraku Engineering Team Deck
layerx
PRO
11
5.7k
All About Sansan – for New Global Engineers
sansan33
PRO
1
1.3k
こがヘンだよ!Snowflake?サービス名称へのこだわり
tarotaro0129
0
110
Playwrightのソースコードに見る、自動テストを自動で書く技術
yusukeiwaki
2
710
「え?!それ今ではHTMLだけでできるの!?」驚きの進化を遂げたモダンHTML
riyaamemiya
10
4.4k
ML PM Talk #1 - ML PMの分類に関する考察
lycorptech_jp
PRO
1
490
Ryzen NPUにおけるAI Engineプログラミング
anjn
0
210
シンプルを極める。アンチパターンなDB設計の本質
facilo_inc
1
1k
段階的に進める、 挫折しない自宅サーバ入門
yu_kod
5
2.2k
Uncertainty in the LLM era - Science, more than scale
gaelvaroquaux
0
470
Featured
See All Featured
For a Future-Friendly Web
brad_frost
180
10k
Optimizing for Happiness
mojombo
379
70k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
Music & Morning Musume
bryan
46
7k
How STYLIGHT went responsive
nonsquared
100
5.9k
How GitHub (no longer) Works
holman
316
140k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.8k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
The Pragmatic Product Professional
lauravandoore
37
7.1k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
960
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.3k
Automating Front-end Workflow
addyosmani
1371
200k
Transcript
ja.mackerel.io 2025-08-07 id:onk オブザーバビリティ文化を 組織に浸透させるには 国産サービスで実践するオブザーバビリティ入門
自己紹介 • 大仲 能史 a.k.a. id:onk • 芸歴20年 ◦ バックエンド〜インフラが主戦場
• 株式会社はてな チーフエンジニア • Mackerel開発チーム エンジニアリングマネージャー 2
力作の完成、 おめでとうございます 3
今日の話 4
オブザーバビリティ文化を 組織に浸透させるには 5
6
よろしくお願いします 7
アジェンダ • Mackerelという国産可観測性プラットフォーム • 定点観測の取り組み ◦ SRE ◦ PWG •
オブザーバビリティを組織に浸透させるには 8
9
“Mackerel” as an Observability Platform 10
サーバー監視サービスとして生まれたMackerel 11
ラベル付きメトリック機能のリリース 12
ラベル付きメトリック機能のリリース • 入力が多次元に ◦ 今までのメトリックは、横軸に時間、縦軸に値のみ ◦ 値にAttributeが付いているので、任意に絞り込める 13
APM機能のリリース 14
APM機能のリリース 15 • ボトルネックを見つける ◦ HTTPエンドポイントごと、DBクエリごとに集計 ◦ エラーの発生箇所ごとに集計 • アプリケーションの中の処理を追跡する
◦ トランザクション単位で処理の流れと時間を可視化
最近のMackerel • 誰でも簡単に始めやすく奥深い可観測性プラットフォーム ◦ サーバー監視はすぐに始められる ◦ ダッシュボードも一瞬で作れる • チームみんなで育てる監視 ◦
Slack上でグラフを見て、そのままコミュニケーション • アプリケーションの振る舞いを監視するAPM ◦ なんとなくの不調を、中を見通せる事実に変える 16
定点観測 1 7
SLO Monitoring • SLO ◦ SREの代表的なプラクティス • プロダクトチーム、プロダクトオーナーの意思決定 ◦ エラーバジェットポリシー
= SLOを満たせなかったら、 機能開発を緩めて信頼性の改善に取り組む • SLI/SLOを改善するフィードバックループ ◦ Revisit Date 18
• SLOを割っているか、割っていたか ◦ バーンレートアラートもあるが この場でも会話している • 対応したがSLOに影響が無いもの ◦ 対応必要ならSLOが足りない •
SLO緩める?厳しくする? SLO Monitoring 19
PWG (Performance Working Group) • サービスの運用状況をチームで見直す月次定例会 • はてなで2009年ぐらいから開催している • SRE本31章と酷似
20
SRE本31章 21
SRE本31章 22 私たちが行うミーティングの中で、平均以上 に有益なものが一つあります。それはプロダ クションミーティングと呼ばれるもので、 SREチームが自分たちと他の参加者に対し、 担当するサービスの状況について十分に注意 を払って明確に説明をすることによって、す べての関係者の全般的な認識を高め、サービ スの運用を改善するために行われます。
SRE本31章 23 定期的なミーティングにおいて設計上の判断 をサービスのパフォーマンスと合わせて考え てみることは、きわめて強力なフィードバッ クループになります。
SRE本31章 24 • プロダクション環境において予定されてい る変更 • メトリクス • 障害 •
ページされたイベント • ページされなかったイベント • これまでのアクションアイテム
PWG (Performance Working Group) • 直近の障害ふりかえり: 対応状況や再発防止策の確認 • 作業ログ: 手作業や臨時作業をふりかえって、根本原因や自動化の機会を探る
• アラート: 発火傾向の分析、閾値の見直し、不要なアラートの削除 • ダッシュボード: サービス状態を俯瞰し、変化を見つける。SLOも確認 • 今日話したいこと: 自由トピック • 今後の変化共有: アクセス傾向が変わるイベント、リリースや構成変更などの予 告 • 出たTODOのIssue化: 話した内容をその場でNext Actionに繋げる • 感想/雑談: ちょっとした気づきやモヤモヤの解消。このアジェンダ自体の見直 しとかも 25
アラート一覧眺めるコーナー 26 • Mackerelのアラート一覧とその傾向を眺める ◦ それぞれがなぜ発生しているのかを話す • 対応していないアラートがあったら ◦ そもそも不要なアラートじゃないか会話する
◦ その場で閾値を変えたり、監視ごと消したり • 頻出しているアラートがあったら ◦ 必要なアラートなら根本対応を検討する
• 議事録を取りつつその場で調べる • 調べきれないならオブザーバビリ ティが足りない ◦ 引き続き調査したり ◦ 計装するIssueを入れたり ダッシュボード
27
• 未来の見通しを議論できる ◦ 利用状況のトレンドや今後の開発予定の共有 ◦ キャパシティプランニング判断 • SREsのソフトスキル向上 ◦ Devに対してタスクを振る機会
• システム構成オンボーディング ◦ アーキテクチャや特性、コンポーネントのオーナーに対する 解像度が上がる PWGの効能 28
PWGの効能 • チームみんなで育てる監視 ◦ その場で会話して編集できる ◦ オオカミ少年アラートの抑制 ◦ ダッシュボードの改善 •
「情報」は意思決定と行動を促すものである ◦ これで意思決定できますか、行動できますか ◦ runbookを書けない監視は存在すべきではない 29
オブザーバビリティ文化を 組織に浸透させるには 3 0
• ツールの効果的な導入 • 開発者も巻き込む • 運用プロセスに組み込む オブザーバビリティ文化を組織に浸透させるには 31
ツールを導入して全体感を見る • Mackerel Agent • クラウドインテグレーション • 外形監視 • 自動計装
• O11yが足りないところを追加で計装する 32
• アプリケーションの中の処理を見る ◦ リソースの監視ではなくAPMならDevの興味範囲 ◦ オブザーバビリティの向上からスタートすると巻き込みやすい ▪ トレース ▪ エラー
• 特にエラーは分かりやすく開発者の領域 ◦ 負荷ではなくバグ 開発者も巻き込む 33
開発者も巻き込む 34 • ダッシュボードを利用した定点観測会 ◦ 全員がシステムの「普段の状態」を共通認識として持てる ▪ SLO、各コンポーネントの強弱、最近の傾向、限界値 ◦ 何かが起きたときに「異常な状態」に気づきやすくなる
▪ 勘と経験に頼った探索にものすごく役に立つ ▪ オブザーバビリティがある状態でも更に爆速に • 自分の守備範囲と思わせる ◦ 知識が無い→学習している、に変えたい
認知負荷 35 • 課題内在性負荷 ◦ 学習対象そのものの複雑さによる負荷 ◦ 専門用語が多い、概念が抽象的である • 課題外在性負荷
◦ 学習内容とは直接関係のない負荷 ◦ 分かりにくい説明、不要な情報過多 • 学習関連負荷 ◦ 知識を定着させるために必要な負荷 ◦ 問題を解く、他の人と議論する
• 使い道に合わせて情報量を減らす • 上から下に流れていくよう構成する ◦ 外側のコンポーネントを上に、内側のコンポーネントは下に • グラフに補助線を入れる ◦ 普段0.1〜0.2で、危険域が90.0、というメトリックもある
◦ 10.0程度の揺らぎは普段の100倍だけど、ただのノイズ • Markdownウィジェットを使って適宜説明を入れる 負荷をできる限り下げるダッシュボードの構築 36
運用プロセスに組み込む • リリース前後でAPMの画面を確認する ◦ 指標が悪化したらロールバックや、機能トグルをオフに • アラートを設定し、普段のチャットに通知が来るように ◦ インフラチャンネルではなく、開発チャンネルに通知すると Critical通知が来たら全員で対応するプロセスになりやすい
• 障害時に見るダッシュボード ◦ 初動フローに「ダッシュボードを確認する」と明記しておく ◦ ポストモーテムにもスクショやリンクを沢山貼って見慣れる 37
運用プロセスに組み込む 38 • 障害対応演習を定期的に行う ◦ 学習関連負荷をかける わかばちゃんと学ぶ サーバー監視 湊川あい 粕谷大輔
C&R研究所
まとめ 3 9
• Mackerelは可観測性プラットフォームです ◦ 最近はアプリケーションの中も見られるようになっています • 定点観測を義務づける=運用プロセスに組み込むと良い ◦ SLOをRevisit Date通りに運用する ◦
チームを徐々に育成していく • オブザーバビリティ文化を組織に浸透させるには ◦ 組織の運用プロセスに組み込む ◦ 認知負荷をできる限り下げながら、組織に対してパッチを当てる まとめ 40