Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20250910_障害注入から効率的復旧へ_カオスエンジニアリング_生成AIで考えるAW...
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
sh_fk2
September 10, 2025
Technology
470
4
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
20250910_障害注入から効率的復旧へ_カオスエンジニアリング_生成AIで考えるAWS障害対応.pdf
sh_fk2
September 10, 2025
More Decks by sh_fk2
See All by sh_fk2
[AWS Summit Japan 2026]迷っているあなたへ_小さな一歩が、やがて自分を助けてくれる
sh_fk2
1
170
[OpsJAWS 40]リリースしたら終わり、じゃなかった。セキュリティ空白期間をAWS Security Agentで埋める
sh_fk2
3
380
[JAWS-UG彩の国埼玉#6]混乱しました。AWS MCP ServersとAWS MCP Serverの違いを5分で解説
sh_fk2
0
170
[トレノケ雲の会 超re:Cap LT大会]re:Invent2025 5分で読み解くAWSサポート大変革
sh_fk2
2
77
[JAWS-UG初心者支部#72]re:Invent2025で見つけたコミュニティに参加する意味
sh_fk2
1
84
[JAWS-UG 横浜支部 #91]DevOps Agent vs CloudWatch Investigations -比較と実践-
sh_fk2
2
410
[クラウド食堂 #5]見える化✖️自動監視=CloudWatchSynthetics
sh_fk2
0
76
[JAWS-UG 横浜支部 #89]CloudWatch 2025年の軌跡から”勝手に”予測する「運用の未来」
sh_fk2
0
110
[re:Inent2025事前勉強会(有志で開催)] re:Inventで見つけた人生をちょっと変えるコツ
sh_fk2
4
2.9k
Other Decks in Technology
See All in Technology
2026TECHFRESH畢業分享會 - Lightning Talk - 資料也要 CI/CD? 用 Airbyte 自動化資料同步
line_developers_tw
PRO
0
1.3k
GitHub Copilot 最新アップデート – 「一歩先」の実践活用術
moulongzhang
5
1.5k
SONiCの統計情報を取得したい
sonic
0
230
Kubernetesにおける学習基盤とLLMOpsの概要
ry
1
320
Kiroで書いた 設計書 が AI レビューの 採点基準 になる
ezaki
0
130
小さく始める AI 活用推進 ― 日経電子版 Web チームの事例/nikkei-tech-talk47
nikkei_engineer_recruiting
0
300
FPGAの開発コンペでZephyrを使ってみた
iotengineer22
0
140
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
personabb
1
540
Flow 不死:AI 時代 DevOps 的不變本質
cheng_wei_chen
2
330
脱SaaS!FDEを支えるプロビジョニングと分離設計
knih
0
240
Lightning近況報告
kozy4324
0
190
スタートアップにAmazon EKSは早すぎる? マルチプロダクト戦略を加速する Platform Engineeringの実践 / Is Amazon EKS Too Soon for Startups? Practical Platform Engineering to Accelerate a Multi-Product Strategy
elmodev09
0
370
Featured
See All Featured
WCS-LA-2024
lcolladotor
0
650
Why Our Code Smells
bkeepers
PRO
340
58k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
How to Think Like a Performance Engineer
csswizardry
28
2.7k
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
780
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.3k
GraphQLとの向き合い方2022年版
quramy
50
15k
Everyday Curiosity
cassininazir
0
230
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8.2k
The Mindset for Success: Future Career Progression
greggifford
PRO
0
360
The Spectacular Lies of Maps
axbom
PRO
1
820
Transcript
2025年9月10日 JAWS-UG 朝会 #73 障害注入から効率的復旧へ カオスエンジニアリング&生成AIで考える AWS障害対応 #jawsug_asa
自己紹介 >深津 新太郎 PM @ 事業会社の情報システム子会社 オンプレ/ハイブリッドシステムの運用・開発・リプレイス担当 >Community Builder(Cloud Operations)2025
>好きなサービス S3、CloudWatch、FIS
9/1、みなさん防災訓練しましたか?
Everything fails, all the time. 全てのものはいつでも壊れうる Dr. Werner Vogels
みなさん、最後にいつ障害訓練しましたか?
みんなの参考図書 Well-Architected Framework
運用上の優秀性(Operational Excellence) • OPS05-BP02: Game Day を実施する • OPS05-BP03: 自動化された演習を繰り返す
信頼性(Reliability) • REL13-BP02: 障害をシミュレートする • REL13-BP03: 自動フェイルオーバーを検証する • REL13-BP04: スケーリング動作をテストする パフォーマンス効率(Performance Efficiency) • PERF06-BP02: 負荷試験とボトルネック確認 障害訓練に関するもの 結構ある… みんなの参考図書 Well-Architected Framework ※他にもあるかも
AWS Fault Injection Service
Agenda 1 AWS Fault Injection Serviceとは 2 障害を起こす(基礎編)+Tips 障害対応 生成AIの活用
3 4 5 まとめ 障害を起こす(応用編)
Agenda 1 AWS Fault Injection Serviceとは 障害を起こす(基礎編)+Tips 障害対応 生成AIの活用 まとめ
障害を起こす(応用編) 2 3 4 5
AWS Fault Injection Service (AWS FIS) ・マネコンから実行できる障害注入ツール ・意図的に障害を発生させ、サービスの挙動や耐性を確認 AWS Resilience
Hub:レジリエンス(回復・耐障害性)のチェック・管理 AWS FISはその中でも「実験の実行」を担当するサービス
試験計画 テストケース策定 試験実施 試験結果 まとめ 正常稼働確認 障害注入 可用性 復旧確認 障害試験の流れ
FISは試験実施時に障害を注入する機能のみ 正常稼働確認や復旧確認は別途準備する必要あり 障害試験の全体像とFISの守備範囲
• EC2 • EBS • ECS • EKS • Lambda
• VPC • Transit Gateway • IAMロール • Aurora • RDS • ElastiCache • DynamoDB • S3 • ARC ゾーンシフトに登録されている AWS リソース 最新の情報はドキュメント参照 https://docs.aws.amazon.com/ja_jp/fis/latest/userguide/targets.html 障害を注入できるターゲット Lambda 2024年対応 順次追加、更新されていくと想定
アクションタイプ 代表的なアクション例 説明 インスタンス操作(EC2) stop-instances, reboot-instances, terminate-instances EC2 を停止・再起動・終了する障害を注入 リソースストレス(SSM
経由) AWSFIS-Run-CPU-Stress, AWSFIS- Run-Memory-Stress, AWSFIS-Run- Disk-Stress CPU高負荷、メモリ圧迫、ディスク満杯な ど EBS ボリューム操作 pause-volume-io EBS ボリュームの I/O を停止 ネットワーク障害 ブラックホール(通信断), レイテンシ 追加, パケットロス 特定インスタンスなどにネットワーク障害 を注入 RDS / Aurora failover-db-cluster, reboot-db- instances DB クラスタのフェイルオーバーや DB 再起 動 Lambda invocation-add-delay, invocation- error, invocation-http-integration- response 関数実行に遅延やエラーを強制注入 S3 bucket-pause-replication S3 レプリケーションを一時停止 Transit Gateway など transit-gateway-disrupt-cross- region-connectivity クロスリージョン接続を遮断 実行できる主な障害
料金 引用元:https://aws.amazon.com/jp/fis/pricing/?refid=12eea001-bcfd-40ce-9788-748f73400e32 実験の実行時間課金xアクション数xターゲットアカウント 0.10 USD/分 20 分間並行して実行される2 つのアクション +10 分間実行される
1 つのアクション 2 アクション x 20 分 + 1 アクション x 10 分 = 50 アクション分 実験の実行料金 = 50 アクション分 x 0.10ドル = 5 ドル
実験レポート 障害注入中の稼働状況をレポート化してくれる ただし、$5/回!!(正直使いどころがわからない・・・)
Agenda 1 AWS Fault Injection Serviceとは 障害を起こす(基礎編)+Tips 障害対応 生成AIの活用 まとめ
障害を起こす(応用編) 2 3 4 5
FIS設定 アクション:注入する障害 ターゲット:障害を注入する対象リソース
FIS設定 どんな障害を注入するか どれくらい障害を発生させるか リソースID、 タグで対象を指定
FIS設定 障害内容によってはSSM(Automation)を使用
FIS設定 実行するための IAMロールを指定 S3やCloudWatchへ 実験結果を出力可能
FIS設定
FIS実行
FIS実行
AWS Cloud AWS Management Console AWS CLI AWS Fault Injection
Service Amazon EC2 Amazon RDS IAM Amazon S3 Amazon ECS AWS Systems Manager 操作 権限参照 ログ出力 実行 Automation 実験対象リソース FIS全体イメージ 実験テンプレート シナリオ Amazon CloudWatch
個人的Tips集
Tips 1 大規模障害も最初は短時間の試行から 初めから大きい障害を起こそうとすると失敗 1つずつの小さな実験も繋げると長時間の実験になる 1つ失敗した時のシナリオのやり直しが結構こたえます… スモールスタートで始めて、徐々に大きく EC2障害 Aurora障害 Lambda障害
VPC障害 AZ障害 OK OK OK OK
Tips 2 実験テンプレートはエクスポート・インポートできる × 実験テンプレートのコピー&ペースト ◦ JSON形式 エクスポート&インポート インポートは別アカウントに対しても実施可能 NW的に繋がっていないAWSアカウントへ
確認済みのテンプレートを安全に移すことが可能 (例)Sandboxで試行 → Stagingへ移行して障害試験 ※IAMロールをAssumeRoleすれば、 クロスアカウントでの障害注入も可能
Tips 3 リソースは元の場所に戻らない AZ障害:稼働リソースが障害対象のAZに寄っているとベスト AZ障害を起こす 1. 対象AZのリソースは停止 2. 正常なAZにルート切り替えたり、フェイルオーバして稼働 →業務正常稼働
3. 障害終了 →片寄されていた通信が元に戻る 4. 2回目の実験! ×失敗 RDSやAuroraは再フェイルオーバしないので障害が空振り 停止したEC2も自動で起動しない 各リソースが稼働中のAZを 一括で把握できるようにしておくと便利
Tips 4 ターゲットの確認は事前に アクションを実行しない実行タイプを指定することで、 障害注入対象のリソースを事前に確認可能 誤って他のリソースに注入しないように事前確認をお勧め
参考 https://docs.aws.amazon.com/ja_jp/fis/latest/userguide/fis-quotas.html FISにも色々クォータがあります 注意が必要なのは 実験データの保持日数 120日 完了した実験に関するデータを FISが保持できる最大日数 期間の延長はできない たまに実施すると前回実験の結果が見えないので注意
Tips 5 4ヶ月で忘れます
Tips 6 お腹いっぱいになったら戻せません EC2の障害アクションでDsik使用量を増やすことができます AWSFIS-Run-Disk-Fill ×Full CloudWatch Alarmの設定確認に使うなど便利 ただし、容量がいっぱいになってしまうと、SSMが稼働できず戻せなくなります 何事も適切なレベルが大事!
Tips 7 Fargateさんは難敵です AZ障害の実験にFargateは対応していません マネージドサービスなので言うことを聞いてくれません 特定のAZで稼働しているコンテナを別AZに移すといったことをやりたかったら ECS on EC2でやりましょう (注:私はFargate好きです)
Agenda 1 AWS Fault Injection Serviceとは 障害を起こす(基礎編)+Tips 障害対応 生成AIの活用 まとめ
障害を起こす(応用編) 2 3 4 5
FIS シナリオライブラリ
FIS シナリオライブラリ
None
全部で10個のアクション(障害) リソースID、タグで指定されたターゲットに 続々と試練が課されていく
EC2障害が多い アクション(障害内容) ターゲット(障害対象)
NW一時遮断、RDSフェイルオーバー アクション(障害内容) ターゲット(障害対象)
FIS AZ障害 対象環境 Availability Zone AWS Cloud Availability Zone Auto
Scaling group VPC Amazon EC2 Elastic Load Balancing Amazon Aurora Amazon Aurora Writer instance Amazon Aurora Reader instance User Amazon EC2
FIS AZ障害 障害注入 Availability Zone AWS Cloud Availability Zone Auto
Scaling group VPC Amazon EC2 Elastic Load Balancing Amazon Aurora Amazon Aurora Writer instance Amazon Aurora Reader instance User Amazon EC2
Availability Zone AWS Cloud Availability Zone Auto Scaling group VPC
Amazon EC2 Elastic Load Balancing Amazon Aurora Amazon Aurora instance Amazon Aurora Writer instance User Amazon EC2 昇格 FIS AZ障害 対処後
FIS AZ障害 健全性確認
FIS AZ障害 実験結果
Agenda 1 AWS Fault Injection Serviceとは 障害を起こす(基礎編)+Tips 障害対応 生成AIの活用 まとめ
障害を起こす(応用編) 2 3 4 5
障害訓練 稼働確認 (例)ダッシュボード、稼働確認ツールの準備 障害原因特定 (例)人力 → 生成AI活用で効率化? 復旧作業 (例)復旧ツールの準備
Amazon Q Developer 運用調査 2025/4/25〜 東京リージョンでもプレビュー中
Amazon Q Developer 運用調査 Slackで通知受信、応答も可能 ※2025/9/9時点で英語限定
Amazon Q Developer from Slack Amazon Q Developer In chat
applications AWS Resource AWS Cloud Amazon SNS 日本語対応済み! - マネジメントコンソール - in chat applications(旧AWS chat bot)
Amazon Q Developer マネジメントコンソール右上 Amazon Q Developer 先ほどの障害について聞いてみる
Agenda 1 AWS Fault Injection Serviceとは 2 障害を起こす 障害対応 生成AIの活用
3 4 FIS tips 5 まとめ
障害はいつ来るか分かりません だから訓練しましょう AWS FISは、壊して強くするための道具 マネージドなので安全に、少しずつ導入できる なによりも『AWSが公式に壊してくれる安心感』 生成AIも組み合わせて、障害対応のつらみを軽減 ぜひ皆さんも、今日からちょっと壊してみましょう! まとめ
お勧めハンズオン https://github.com/kazzpapa3/jawsug-kobe/tree/39cd0c15b9883375ae58512734ebafc1b851e8e9/aws-fis JAWS-UG神戸 市野さん作
-Share your lessons- ※本資料に記載されている会社名、製品名、サービス名は各社の商標または登録商標です