Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
解消したはずが…技術と人間のエラーが交錯する恐怖体験
Search
Lamaglama39
July 29, 2025
Technology
410
0
Share
解消したはずが…技術と人間のエラーが交錯する恐怖体験
Lamaglama39
July 29, 2025
More Decks by Lamaglama39
See All by Lamaglama39
Terraformを安全に効率よく書くためのClaude Code活用術
lamaglama39
0
520
GKE Agent SandboxでAIが生成したコードを 安全に実行してみた
lamaglama39
0
260
LT中にAWS Interconnect – multicloudでAWSとGoogle Cloudを繋げる
lamaglama39
0
400
「Managed Instances」と「durable functions」で広がるAWS Lambdaのユースケース
lamaglama39
0
810
AI × クラウドで シイタケの収穫時期を判定してみた
lamaglama39
1
770
Proxmox × HCP Terraformで始めるお家プライベートクラウド
lamaglama39
1
420
物体検出モデルでシイタケの収穫時期を自動判定してみた。 #devio2025
lamaglama39
0
510
Other Decks in Technology
See All in Technology
障害対応のRunbookは作った、でも本当に動くの? AWS FIS で EKS の AZ 障害を再現してみた
tk3fftk
0
120
O'Reilly Infrastructure & Ops Superstream: Platform Engineering for Developers, Architects & the Rest of Us
syntasso
0
310
10サービス以上のメール到達率改善を地道に継続的に進めている話 / Continue to improve email delivery rates across multiple services
yamaguchitk333
6
2.3k
Purview Endpoint DLP 動かしてみた
kozakigh
1
460
"うちにはまだ早い"は本当? ─ 小さく始めるPlatform Engineering入門
harukasakihara
7
650
【関西製造業祭り2026春】現場を変える技術はここまで来た〜世界最大の製造業見本市から持って帰ってきたもの〜
tanakaseiya
0
190
アプリブロック機能のつくりかたと、AIとHTMLの不合理な相性の良さについて
kumamotone
1
260
そのSLO 99.9%、本当に必要ですか? 〜優先度付きSLOによる責任共有の設計思想〜 / Is that 99.9% SLO really necessary? Design philosophy of shared responsibility through prioritized SLOs
vtryo
0
870
Gaussian Splattingの表現力を拡張する — 高周波再構成とインタラクションへのアプローチ —
gpuunite_official
0
200
PdM・Eng・QAで進めるAI駆動開発の現在地/aidd-with-pdm-eng-qa
shota_kusaba
0
260
ECSのTerraformモジュールにコントリビュートした話
harukasakihara
0
250
なぜ、IAMロールのプリンシパルに*による部分マッチングが使えないのか? / 20260518-ssmjp-iam-role-principal
opelab
2
140
Featured
See All Featured
Building an army of robots
kneath
306
46k
GraphQLとの向き合い方2022年版
quramy
50
15k
Documentation Writing (for coders)
carmenintech
77
5.3k
Designing Experiences People Love
moore
143
24k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.2k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
61
44k
A Modern Web Designer's Workflow
chriscoyier
698
190k
The Mindset for Success: Future Career Progression
greggifford
PRO
0
330
The untapped power of vector embeddings
frankvandijk
2
1.7k
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
790
Code Review Best Practice
trishagee
74
20k
Java REST API Framework Comparison - PWX 2021
mraible
34
9.3k
Transcript
画像は Gemini 2.5 Flash で作成した サーバーのお化けです。
自己紹介 赤池 悠 (あかいけ はるか) 1998/07/29生まれ 所属:クラスメソッド株式会社 クラウド事業本部コンサルティング部 ブログ:https://dev.classmethod.jp/author/akaike/ Twitter:@lamaglama39
最近怖かった出来事: 自宅のProxmoxクラスターが突然めっちゃ不安定になっ て、私の心も不安定になりました。 (再起動したら直りました)
これは前職で私が 実際に経験したお話しです…。
私が担当していたシステム、および環境 • Direct Connectでの オンプレミス ↔ AWS 接続 • 複数システム共通VPC
+ AWSサービス別サブネット
その日私がやっていた作業 • 新規システム用のDirect Connect + AWSリソースの作成作業 • 人生初Direct Connectに胸を躍らせる
起きた事件。
それは唐突に起きました。 私が作業を完了させてから約 1時間後に既存のDirectConnectが突如ダウンし、 オンプレから既存システムへの通信がすべてダウン …。
それは唐突に起きました。 • 障害状況 ◦ 既存DirectConnectのステータスがダウン ◦ オンプレから既存システムへの疎通NG • 騒然とする現場 ◦
大量の障害検知に対応する運用部門 ◦ 各システムのアプリ担当者からの問い合わせ ◦ いつになく殺気立つPM (普段は仏) • 調査に駆り出される私 ◦ 直前でDirectConnectに関連する作業を実施していたため、逃れられない (別回線の作業だから俺は絶対関係ないだろ… と思いながら調査したのはここだけの秘密です。) ◦ AWSサポートにて電話しながらの調査実施
第1の障害原因 AWS Direct Connect ロケーション
第1の障害原因はなんだったのか。 「AWS Direct Connect ロケーション側の問題」により障害が発生していた。
無事解消するまでの話。 • AWSサポートとのやり取り ◦ 「AWS側での障害は確認していない」との回答 ◦ AWS上でそれらしい障害原因が見つからないため、 それ以上調査が進まない… • 回線事業者への問い合わせと連絡
◦ マネージャー陣によって別途回線事業者へ問い合わせ ◦ AWS Direct Connect ロケーション側で問題が発生していたことが判明 ◦ しばらくした後、Direct Connectのステータスがアップし、 回線事業者からも復旧の連絡があった ◦ オンプレから各システムへの疎通もOK
すべて解消した! そう思われていたが…。
障害はまだまだ終わらない…。 なぜか特定のサブネット上のリソースだけ、疎通が通らない …。
障害はまだまだ終わらない…。 • 障害状況 ◦ オンプレミスから特定のサブネットへの疎通だけ通らない ◦ それ以外のサブネットへは、正常に疎通できる • 疲弊し始める現場 ◦
ほっと一息ついた10分後には、おかわり障害対応 ◦ 困惑するPM • 引き続き調査に駆り出される私 ◦ これにより、ほぼまるまる1日の障害対応が確定 ◦ とりあえずネットワーク周りの設定から調査し始めた
第2の障害原因 ヒューマンエラー
第1の障害の裏側で起きていたこと。 エンジニア〇〇さんが、 新規システム向けにサブネットなどのリソースを作成していた。 (マネジメントコンソールから手動作業)
第1の障害の裏側で起きていたこと。 オンプレミス向けのRoute Tableは各サブネット共通で利用しており、 新規サブネットに関連づける際に、誤って既存のサブネットの関連付けを解除してしまった。
無事解消するまでの話。 • 調査方法 ◦ 問題のサブネットにルートテーブルが関連づけられていないことを確認 ◦ CloudTrail + Configにて、 該当のサブネットとルートテーブルの設定履歴を確認
• 解消方法 ◦ サブネットにルートテーブルを関連付け ◦ 無事疎通が通るようになり、障害解消
結論 人間が一番の単一障害点
どう対策するべきか。 • 作業プロセスの改善 ◦ 事前準備の強化 ▪ 作業前にシステム全体の依存関係を図式化し、影響範囲を明確化 ◦ 作業手順の標準化 ▪
チェックリスト形式の作業手順書を作成し、確認すべき項目を明文化 ▪ 重要な設定変更は、作業前後の状態を必ず記録
どう対策するべきか。 • 監視・検知体制の構築 ◦ 疎通確認の自動化 ▪ 各サブネットからオンプレミスへの疎通を定期的に自動チェック (スクリプト、Network Synthetic Monitorなど)
• 作業体制の見直し ◦ 複数人での相互確認 ▪ 重要なインフラ作業は必ず複数人でレビュー ▪ 設定変更前後の状態を相互確認する体制を作る ◦ 段階的作業とロールバック準備 ▪ 作業を小さな単位に分割し、各段階で動作確認を実施 ▪ 即座に元の状態に戻せるよう、作業前の設定を必ず保存
どう対策するべきか。 • 技術的な対策 ◦ Infrastructure as Code(IaC)の活用 ▪ TerraformなどのIaCを使用して設定を管理し、 手動での設定ミスを防止
▪ 変更履歴も自動的に管理 ◦ 作業時の権限の最小化 ▪ 作業に必要最小限の権限のみを付与 ▪ 重要な設定変更には承認フローを組み込む
ありがとうございました。 作業ミスに気をつけて、 用法用量を守って正しくAWSを利用しましょ う。