鳴り止まないアラート対応の中で学んだ監視改善の進め方 / team based monitoring improvement from alert

鳴り止まないアラート対応の中で学んだ監視改善の進め方 CARTA HOLDINGS fluct 開発本部部長こんちゃん(konchanSS) PHPカンファレンス新潟 2025
2025.05.31

株式会社fluct 部長こんちゃん @konchanSS 略歴 • 石川県金沢市出身 • 新卒でCARTA HOLDINGS入社でCARTA
MARKETING FIRMに配属される • 1年目 ~ 6年目まで広告主向けの広告配信システム全体を担当 • 7年目となる去年9月にfluctに異動 • パブリッシャー向け広告配信設定システム/ツールの開発する役割/領域 management engineering Front Server Data Cloud Infra

はじめに今日話す監視について • エラーログ監視 ◦ アプリケーションログ、APMなどのプロファイリングツールを使ってアプリケーションを監視する • リソース監視 ◦
CPUやメモリ、ディスクを監視する • プロセス監視 ◦ 起動数やサービスの状態を監視する • ネットワーク監視 ◦ ネットワークやサーバーそのものを監視する etc….

はじめに今日話す監視について • エラーログ監視 ◦ アプリケーションログ、APMなどのプロファイリングツールを使ってアプリケーションを監視する • リソース監視 ◦
CPUやメモリ、ディスクを監視する • プロセス監視 ◦ 起動数やサービスの状態を監視する • ネットワーク監視 ◦ ネットワークやサーバーそのものを監視する今日話す監視は主にこれ

6年所属した部署からの異動で全く別のチームに配属された先では鳴り続けるアラートの日々が待っていました

ところで、みなさんもこんなアラートに出会ったことはないですか？

はじめに私が配属された当時のアラート • チームメンバーから無視されているアラート • どういうアクションを取ればいいのかわからないアラート ◦ そのアラートを対応できるのは一部の人だけ • アラート設定によくわからない閾値が設定されている

最初はただアラートを調整していけばいいと思っていました

はじめに最終的に目指したアラートの形 • アラートがネクストアクションのトリガーになって誰もが対応できる ◦ Github Issueの活用 • アラートにシステムの歴史を語らせる ◦
アラートを見ればわかるアプリケーションとアラートの設計 • ビジネスの振る舞いや成長を理解してアラートを設定する ◦ ビジネスとのコミュニケーションパス

理想の形にいくためには一筋縄ではいきませんでした

はじめに見えている課題は氷山の一角意味のないアラート改善ができないパターン改善ができない構造改善ができないメンタルモデル • 見えていた課題は表層 ◦ 意味のないアラート
• 本質的な問題は ◦ チームの監視への知識量 ◦ ビジネスへの理解度アラートの問題は結果であり、問題の原因は「知識量」

見えていない問題と如何に立ち向かうか

問題を解決するために必要な考え方と進め方

AGENDA 02 アラートの課題と解決までのプロセス 01 チームの分断 03 ビジネスの分断 04 まとめ

改めて監視とは？

改めて監視とは？監視とは様々な問題を俯瞰し予防と対応を体系化したもの

改めて監視とは？監視とは様々な問題を俯瞰し予防と対応を体系化したものここでいう問題とは何の問題？

サービス停止とか、セキュリティ異常とか要はシステムの問題

サービス停止とか、セキュリティ異常とか要はシステムの問題問題を放置してしまうとどういう不利益があるか？

障害の深刻化、利用者への影響、機会損失

障害の深刻化、利用者への影響、機会損失これらは何に繋がるか？

ビジネスの損失

アラートの課題と解決までのプロセスビジネスと監視は切っても切り離せない私たちはビジネスの損失の予防と対応のために監視をしている監視がちゃんとできているかを判断する上で、私たちもビジネスについて多少知っておく必要がある私たちがやることはビジネス指標と技術指標の橋渡しをしてあげること

ただ、システムを長く運用していくとアラートにも課題が出てくる

アラートの課題と解決までのプロセスアラートの課題 • システムの運用歴が長くなるにつれて、システムと周辺技術の変更と共にアラートの定義も変化する • 変化にアラートが対応しないと意味のないアラートや本当にアラートだったものに反応できなくなることが増えていく • アラートではないものが通知され続けることでチームが
アラート疲れを起こしてしまうという二次的な被害が起こる ※ アラート疲れとは絶え間のないアラートや通知を大量に受け取ると、その膨大な量に圧倒されて結果としてアラートの見逃し、無視や対応の遅れを生んでしまうこと

実際に私がジョインした当時の状況

アラートの課題と解決までのプロセス無視されているアラート • 飛んでいるけど1日以上無視されている

アラートの課題と解決までのプロセス同じ人が一生対応しているアラートアラート(1回目) 僕対応します Aさんアラート(N回目) 僕対応します Aさん基本同じ人が見てる •
アラート対応できる人が一部のみ他のメンバーにはどう対応するのかわからない人もいたかつ、情報も残してないのでわからない

アラートの課題と解決までのプロセス閾値の理由がよくわからないアラート • 5回以上はアラートにするとなっているが、4回以下までは良いという根拠は一体どこにある？実は根拠はなく最初作った人の感覚だった 3回まではWarning
5回目以降はAlert

アラートの課題と解決までのプロセス調査するのが時間がかかるアラート • アラート自体に情報はなくて詳細のログを見ないと問題ないかを判断できない • 調査にそれなりに時間持ってかれることもあるアラートの中身が空
すいません具が入ってません

アラート改善していくなら設定を直せばゴール

アラートの課題と解決までのプロセスアラートをただ直すだけでは、意味がないなぜ変化に追従できなかったか？より深くにある構造とメンタルモデルを知らないまま改善してもいずれまた同じ状況になる意味のないアラート改善ができないパターン改善ができない構造改善ができないメンタルモデル
構造＝ルールや仕組みメンタルモデル＝意識・無意識の前提

アラートの課題と解決までのプロセス本来あるべきアラート対応のチームの形アラート(1回目) 対応しますチームメンバー誰でもアラート(N回目) 僕対応します新卒 • 誰もがアラートに対応できる
• 新卒採用文化なので、すぐ新卒に対応してもらう具体的に実施した改善策は後述しますチームメンバー

チームの分断アラート改善ができない問題にはチームの問題が潜んでいる • アラート設定をしているのはチーム • 改善していくのもチーム • それができていないということは、チームがアラート改善ができる状況ではない
チームを否定するのではなくチームの状況を聞いて対話をしていきましょう意味のないアラート改善ができないパターン改善ができない構造改善ができないメンタルモデル

チームの分断具体例(私が入ったタイミングでのチームの状況) 10年以上の運用歴のある管理画面チーム芸歴4年ほどの若手メンバーだけで構成されているチーム監視するシステム

チームの分断具体例(私が入ったタイミングでのチームの状況) 10年以上の運用歴のある管理画面監視するシステムチーム芸歴4年ほどの若手メンバーだけで構成されているチーム監視についての基礎的な知識があるのみ今ある監視の意図は分かっていない

チームの分断具体例(私が入ったタイミングでのチームの状況) 10年以上の運用歴のある管理画面監視するシステムチーム芸歴4年ほどの若手メンバーだけで構成されているチーム監視についての基礎的な知識があるのみ今ある監視の意図は分かっていない最初にシステム設計、監視をした人は
チームにもういない

チームの監視に対する知識量が足りてないシステムの理解が追いついていない

チームの分断このような状況でチームに起きていること • アラートの認識がチームの中で揃っていない • 情報の断裂が起きている • アラートやアプリケーションのログに調査、対応に必要な情報が残されていない •
監視を設定する人がシステムの動作を理解できていない

監視を設定する人がシステムの動作を理解できていないアラートが来てからチームの次の対応がバラバラになっている

監視を設定する人がシステムの動作を理解できていない前任者はアラートが来てから次の対応を手順書に残さなかった知っている情報がメンバー同士で差がある

監視を設定する人がシステムの動作を理解できていないアラートが来てから何を調査する必要があるのかわからない

監視を設定する人がシステムの動作を理解できていないわからないのでとりあえずCPUやメモリなど表層的な指標をアラートしてしまう

解決するためにやったこと

チームの分断これらを解決するには • アラートの認識がチームの中で揃っていない • 情報の断裂が起きている • アラートやアプリケーションのログに調査、対応に必要な情報が残されていない •
監視を設定する人がシステムの動作を理解できていない

監視を設定する人がシステムの動作を理解できていない監視をチームのスキルとしていく

監視を設定する人がシステムの動作を理解できていない情報を残す、繋ぐ手段を確立する

監視を設定する人がシステムの動作を理解できていないドメインを理解できる手段を確立し監視と結び付ける

チームの分断監視をチームのスキルとしていく • アラートの定義をチームの中で決める ◦ アラートがきたときにチームが取りたいアクションを決めること ◦ そうすることでチームの中で同じ認識でアラートを見ることができる
• チームの中で議論して決めるには同じ情報量で話ができる必要がある ◦ (具体例) チーム全員で『入門監視』を読んでくる • 定義が決まったら習慣的にアラートを見直してみる ◦ 持ち回りでファシリテーターを決めて監視設定を見直してみる

チームの分断情報を残す、繋ぐ手段を確立する • アラートが来たときに必ず手順書やログを残すというチームの手続きを決める ◦ (具体例) Github Issueに調査から対応までの流れを記録として残す
◦ 見返すことで誰でも後からできるようになる • アラートのメッセージに過去の対応した記録を貼っておく ◦ (具体例) Github Issueのリンクを貼っておく ◦ いちいち記録を探しに行かなくてよくなった

チームの分断私たちのチームでやるようになった結果 • アラートの通知数が極端に減った • チームメンバーがどのアラートでも対応ができる状態になった • アラートについてのチーム内の議論が活発になった • 自主的にアラートの見直しができるようになった

多い日は1日8件ぐらい来てたアラートが週に1回来るかどうかの状態になった ※ 後述する施策の影響もある

アラート通知量の減少毎日7~8件 x 5日 || 35 ~ 40件週1件アラート定義に基づいて
週1回の見直しを繰り返していった

特定の人しか見れないというアラートはなくなった

調査をしやすくするにはこういう情報がログに欲しいアラートに関する議論をするようになった

私はもう定期アラート見直し会に参加してないが自主的にチームの中でまわっている

これでチームでアラートを改善できる！

ビジネスの分断ここまでのまとめ • ここまでアラート改善ができない構造にはチームの問題が潜んでいてそれを解決していく話をした • では、改善ができないメンタルモデルには何が潜んでいるのか意味のないアラート
改善ができないパターン改善ができない構造改善ができないメンタルモデル

ビジネスの分断メンタルモデルとは、私たちが監視をする理由の中にある私たちが監視をするのはなぜだろう？

ビジネスの分断メンタルモデルとは、私たちが監視をする理由の中にある私たちが監視をするのはなぜだろう？業務上決められているのもあるが、問題に気づけないと失われてしまうビジネス上の損失があるから 1

ビジネスの分断メンタルモデルとは、私たちが監視をする理由の中にある私たちが監視をするのはなぜだろう？業務上決められているのもあるが、問題に気づけないと失われてしまうビジネス上の損失があるから 1 2 では、私たちはビジネスのことをどれぐらい知っている？ビジネスの損失に気づけるように監視が設定されている？

ビジネスの分断メンタルモデルとは、私たちが監視をする理由の中にある私たちが監視をするのはなぜだろう？業務上決められているのもあるが、問題に気づけないと失われてしまうビジネス上の損失があるからメンタルモデル 1 2 では、私たちはビジネスのことをどれぐらい知っている？ビジネスの損失に気づけるように監視が設定されている？

ビジネスの分断メンタルモデルの具体例 • 餅は餅屋なので、ビジネスのことはビジネス職に任せよう • 私たちがアラート対応するのだから、私たちの基準でアラートを決めよう

ビジネス理解の分断が起きている

ビジネスの分断ビジネスと監視は切っても切り離せない私たちはビジネスの損失の予防と対応のために監視をしている監視がちゃんとできているかを判断する上で、私たちもビジネスについて多少知っておく必要がある私たちがやることはビジネス指標と技術指標の橋渡しをしてあげること

ビジネスの分断どうビジネスについて知るか？ビジネスについて詳細に理解することは難しいし、理解できている必要も極論ないまずは自分自身が詳しくならなくてもプロダクトマネージャーやプロジェクトマネージャーに聞きにいけばいい話の中でビジネス指標を見つけていく

ビジネスを理解したからこそ、出来た改善例

ビジネスの分断実際にビジネス指標を見つけたら • 実際に話をして見つけたらそれを技術指標と絡めて見てみる ◦ 右の図が私が運用してたシステムと絡めて見た様子ビジネスを通してシステムと監視の勘所を理解できるように
なるビジネス指標技術指標影響案件の登録案件、在庫データの登録失敗登録数のメトリクス案件に登録されたデータの売上のN%が我々の売上になっているのでクリティカルになる急激に減ったら何かビジネスに影響のある技術的課題があるかもしれない

ビジネスの分断実際に私たちのチームでは • アプリケーション側が改善される機会が増えた • アラートが来たときの判断はより明確になった • アラート通知数が減った

ビジネスの分断実際に私たちのチームでは • アプリケーション側が改善される機会が増えた • アラートが来たときの判断はより明確になった • アラート通知数が減ったログレベルの調整気づきやすいアプリケーション設計を意識するようになった
アラート通知する実装部分が改善された

ビジネスの分断実際に私たちのチームでは • アプリケーション側が改善される機会が増えた • アラートが来たときの判断はより明確になった • アラート通知数が減ったビジネス上の損失が起きるかどうかを軸にネクストアクションを決めやすくなった

ビジネスの分断実際に私たちのチームでは • アプリケーション側が改善される機会が増えた • アラートが来たときの判断はより明確になった • アラート通知数が減った 7~8件/日から0~1件/週に意味のないアラートだという判断がしやすくなった

ビジネスの分断ビジネスに与えた変化 • 売上を上げるための機能開発に集中できるようになった • ビジネスに影響のある障害が起きづらくなった • ビジネスの損失つながるバグは1時間以内に気づいて復旧までするようになった

ビジネスの分断ビジネスに与えた変化 • 売上を上げるための機能開発に集中できるようになった • ビジネスに影響のある障害が起きづらくなった • ビジネスの損失つながるバグは1時間以内に気づいて復旧までするようになったアラートの調査でチームで毎日3時間ぐらい
使っていたのが週1時間ぐらいになったその時間を機能開発あてれるようになった

アラート対応の時間の削減毎日3時間 x 5日 || 15時間週1時間チームの人数の掛け算も考えるともっと全体的にはコスト削減になっている

ビジネスの分断ビジネスに与えた変化 • 売上を上げるための機能開発に集中できるようになった • ビジネスに影響のある障害が起きづらくなった • ビジネスの損失つながるバグは1時間以内に気づいて復旧までするようになった以前は半日ぐらい気づかないこともあった
2回ほどビジネスの損失につながる事態が発生したがどちらも1時間以内に復旧することができたこれによって新卒も安心してリリースできようになったより安心してリリースできるためのテストも増やすようになった

障害検知から復旧までのトータル時間の削減 1時間 4時間程度復旧作業復旧作業トータルの時間で考えても改善前の障害検知よりも短くなった

まとめ最後に • アラートの問題というの結果であり、原因には『チームの知識の分断とビジネス理解の不足』がある • 表層の課題を解決しようとするのではなく、原因の解決を目指すこと • 最初から技術で解決しなくていい、必要な人と必要な対話
をすることからはじめよう

ご清聴ありがとうございました中途エンジニア採用中!!

鳴り止まないアラート対応の中で学んだ 監視改善の進め方 / team based monito...

鳴り止まないアラート対応の中で学んだ 監視改善の進め方 / team based monitoring improvement from alert

Featured

Transcript

鳴り止まないアラート対応の中で学んだ監視改善の進め方 / team based monito...

鳴り止まないアラート対応の中で学んだ監視改善の進め方 / team based monitoring improvement from alert