Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
障害対応訓練、その前に
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
coconala_engineer
December 18, 2025
Technology
370
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
障害対応訓練、その前に
coconala_engineer
December 18, 2025
More Decks by coconala_engineer
See All by coconala_engineer
マルチロールEMが実践する「組織のレジリエンス」を高めるための組織構造と人材配置戦略
coconala_engineer
3
1.4k
『誰の責任?』で揉めるのをやめて、エラーバジェットで判断するようにした ~感情論をデータで終わらせる、PMとエンジニアの意思決定プロセス~
coconala_engineer
2
2.5k
SREのプラクティスを用いた3領域同時 マネジメントへの挑戦 〜SRE・情シス・セキュリティを統合した チーム運営術〜
coconala_engineer
2
1.8k
「守りのIT」から「攻めの基盤」へ!上場前後でやりきった情シス・モダナイゼーション
coconala_engineer
0
140
生成AI時代を勝ち抜くエンジニア組織マネジメント
coconala_engineer
0
50k
AI時代を生き抜く 新卒エンジニアの生きる道
coconala_engineer
1
930
SwiftTestingによる_モダンなiOSテスト手法とBDD.pdf
coconala_engineer
0
400
SRE × マネジメントレイヤーが挑戦した組織・会社のオブザーバビリティ改革 ― ビジネス価値と信頼性を両立するリアルな挑戦
coconala_engineer
0
1.3k
SIEMを利活用した信頼性向上プロセスと実践
coconala_engineer
0
91
Other Decks in Technology
See All in Technology
フルAIで個人開発して学んだあれこれ / yuruai vol.1
isaoshimizu
0
130
AIをフル活用してオンコール機能のプロトタイプを2日で作った話 / Building an AI-Powered On-Call Prototype in Just Two Days
nari_ex
0
140
AIエージェントとPhysical AIが拓く製造業の変革(ハノーバーメッセリキャップ)
iotcomjpadmin
0
150
不要なレビューをAIにまかせて AIコーディングの環境改善を加速した
shoota
1
270
MySQL & MySQL HeatWave Report - June 2026
freshdaz
0
180
起点・思考・出力で分解する 〜PM業務の自動化設計〜
kazu_kichi_67
2
1.1k
データレイクの「見えない問題」を可視化する
sansantech
PRO
1
210
2026-06-24_人とAIの責務分離に基づく開発プロセスの提案.pdf
takahiromatsui
0
230
AI-DLCを “そのまま導入しなかった”話 ~組織に合わせてアジャストした 私たちの実践共有~
hiroramos4
PRO
1
430
作る力から、見極める力へ — AI時代に広がるエンジニアの価値と役割
rince
0
350
GitHub Copilot運用のリアル ~AI Credit時代にどう向き合うか~
takafumisu2uk1
0
440
本当の”仕事”を手放せる未来が見えた
mu7889yoon
0
150
Featured
See All Featured
How STYLIGHT went responsive
nonsquared
100
6.2k
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
240
We Have a Design System, Now What?
morganepeng
55
8.2k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
950
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
450
Into the Great Unknown - MozCon
thekraken
41
2.6k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
Utilizing Notion as your number one productivity tool
mfonobong
4
330
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
620
Code Review Best Practice
trishagee
74
20k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
340
Tell your own story through comics
letsgokoyo
1
970
Transcript
Copyright coconala Inc. All Rights Reserved. 障害対応訓練、 その前に DATA :
2025.12.18 Kota Kamikura (aka. Kou)
Copyright coconala Inc. All Rights Reserved. 自己紹介 名前: Kota Kamikura
(aka. Kou) 所属: 株式会社ココナラ プロダクトプラットフォーム部 最近のこと: - ストレンジャーシングス観てます Season4 Ep8まで来ました (83%) 2 1 2 3
Copyright coconala Inc. All Rights Reserved. これまでの課題 対応不要なオンコールによる 「アラート疲れ」 -
アラート見直し - 頻発事象の根本対応 で、全体の40%を占めていた 対応不要なオンコールを撲滅 今の課題 オンコール対応者に偏りがある - 「アラート疲れ」がオンコールの コミットが小さい原因ではない?? - 「対応回数の多さ」と「社歴・エ ンジニア歴」に相関がある 一人当たりの対応件数 障害対応 - これまでの課題、今の課題 3
Copyright coconala Inc. All Rights Reserved. 分析 「ベテラン」と 「ジュニアエンジニア、 社歴の浅いエンジニア」
で、対応の早さにギャップ がある 背景 ユーザー影響を最小化する ため、障害対応には早さが 求められる 課題 重大な障害ほど、ベテラン の早さが求められるため、 慣れていないメンバーが 「対応を完遂する」経験を 積める機会が少ない 今の課題を深掘りする 4
Copyright coconala Inc. All Rights Reserved. 今のチームに適した訓練方法ってなんだろう? ジュニアエンジニアや社歴の浅いエンジニアも積極的 に障害対応をしてくれている! 一方で、解決するのはベテランが多い
「障害対応」ではなく、「障害調査」に課題がある - 複雑なシステム構成 - 平常時はあまり触れないログ・トレースの分析ツール - etc,... そうだ、障害対応訓練をしよう 5
Copyright coconala Inc. All Rights Reserved. 今のチームに適した訓練方法ってなんだろう? ジュニアエンジニアや社歴の浅いエンジニアも積極的 に障害対応してくれている! 一方で、解決するのはベテランが多い
「障害対応」ではなく、「障害調査」に課題がある - 複雑なシステム構成 - 平常時はあまり触れないログ・トレースの分析ツール - etc,... そうだ、障害調査対応訓練をしよう 6
Copyright coconala Inc. All Rights Reserved. 対象は「ジュニアエンジニア」と 「オンコール参画直後のエンジニア」 以下の要素をEnablingすることを目的にする -
ジュニアエンジニア - 分析ツールのHowTo - システムアーキテクチャ - オンコール参画直後のエンジニア - システムアーキテクチャ ステップバイステップで原因に辿り着く ケースと環境を用意 易しいケースと難しいケースの2種類を用意する - 易: 5XX エラーから、アプリケーションサーバーが 停止していることを特定する - 難: リクエスト遅延から、DBサーバーに対する Thundering Herd 問題を特定する 対象を定め、ケースを用意する 7
Copyright coconala Inc. All Rights Reserved. 要点を分類する 「社内特有の項目」と「エンジニア リング一般の項目」に要点を分ける この分類で、どの情報をどの対象者
に伝えるべきか。が明確になる 目的とゴールを伝える ドキュメントの体裁を 難易度に合わせて変える 易では「障害調査の手順書 + 調査の 要点」を教科書的に記載する 難では「調査の流れ」のみで、確認 するログなどを明示しない 「授業」と「練習問題」の関係で、 知識を自分で活かせる構成にする 実施時に気をつけた3つ 8 - なぜ障害調査訓練を行うか - ケースを実施する目的は何か - ケースでどんな事象を扱い、 何を達成することがゴールか 上記の内容を事前に伝え、参加者の 士気や目的意識を高める
Copyright coconala Inc. All Rights Reserved. 反響: 概ね好評。次に繋がる良い機会だった - アーキテクチャの理解、障害調査時の思考の順序など、狙ってい
た効果への反響があった◎ - 次回開催のお願いや、次回も参加したいという声が得られ、運営 としても手応え◎ - さらに「開発におけるログ設計に活かしたい」といった開発への フィードバックを得た方もいた◎ 振りかえり 大きく3点の課題が見つかった - ケースの難易度設定 難のケースが難しすぎて、学習効率が低下していたのではないか - タイムスケジュールが緩く、練習問題を解ききれなかった 業務時間を割いての実施のため、延長はNGだったのを見越して、 より詳細なスケジュールを立てるべきだった - コミュニケーションを取りながらの障害調査 練習問題はチームを分けて団体競技として実施したが、終始個人 の調査にしてしまっていた 反響と振りかえり 9
Copyright coconala Inc. All Rights Reserved. 次回、1月中旬に参加者にロールを割り振る形式での障害「対応」訓練を実施予定 またEnablingだけでなく、Platformからも障害対応にアプローチしています - PagerDuty
Advanceを活用した障害対応へのAI Agentの導入 - AWS DevOps Agentを活用したオンコール対応者へのインサイトの提供 そして、障害対応訓練へ 10
Copyright coconala Inc. All Rights Reserved. 11
Copyright coconala Inc. All Rights Reserved. SREメンバーを募集しています 12