Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[JAWS-UG 栃木 #2]AWS FISはドSなのか?システムに試練を与えて強くする!
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
sh_fk2
May 24, 2025
Technology
510
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[JAWS-UG 栃木 #2]AWS FISはドSなのか?システムに試練を与えて強くする!
sh_fk2
May 24, 2025
More Decks by sh_fk2
See All by sh_fk2
[AWS Summit Japan 2026]迷っているあなたへ_小さな一歩が、やがて自分を助けてくれる
sh_fk2
2
420
[OpsJAWS 40]リリースしたら終わり、じゃなかった。セキュリティ空白期間をAWS Security Agentで埋める
sh_fk2
3
400
[JAWS-UG彩の国埼玉#6]混乱しました。AWS MCP ServersとAWS MCP Serverの違いを5分で解説
sh_fk2
0
170
[トレノケ雲の会 超re:Cap LT大会]re:Invent2025 5分で読み解くAWSサポート大変革
sh_fk2
2
78
[JAWS-UG初心者支部#72]re:Invent2025で見つけたコミュニティに参加する意味
sh_fk2
1
87
[JAWS-UG 横浜支部 #91]DevOps Agent vs CloudWatch Investigations -比較と実践-
sh_fk2
2
410
[クラウド食堂 #5]見える化✖️自動監視=CloudWatchSynthetics
sh_fk2
0
76
[JAWS-UG 横浜支部 #89]CloudWatch 2025年の軌跡から”勝手に”予測する「運用の未来」
sh_fk2
0
110
[re:Inent2025事前勉強会(有志で開催)] re:Inventで見つけた人生をちょっと変えるコツ
sh_fk2
4
2.9k
Other Decks in Technology
See All in Technology
2026-06-24_人とAIの責務分離に基づく開発プロセスの提案.pdf
takahiromatsui
0
210
Deep Data Security 機能解説
oracle4engineer
PRO
2
200
MUSUBI 田中裕一『AIと共に行う「しごとのリデザイン」- スモールバックオフィス編』AI Ops Lab #4
musubi
0
320
PostgreSQL 19 新機能概要 OSC Hokkaido 2026
nori_shinoda
0
250
気軽に使える"情報のハブ"としてのNotion活用 〜フロー情報の集積点 と、 Claude Code × Notion AI〜
syucream
1
200
iOS アプリの「これって不具合ですか?」を AI に調べてもらう
miichan
0
150
クラウドファンディング版StackChan 3体(4体)をインタラクティブな体験型作品にして展示もした話 / スタックチャンお誕生日会2026
you
PRO
0
190
不要なレビューをAIにまかせて AIコーディングの環境改善を加速した
shoota
1
270
脱SaaS!FDEを支えるプロビジョニングと分離設計
knih
0
300
アラート調査向けAIエージェントの本番導入とその後/AI Agents for Alert Investigation: Production Deployment and After
taddy_919
1
170
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
11k
AIペネトレーションテスト・ セキュリティ検証「AgenticSec」紹介資料
laysakura
2
7.6k
Featured
See All Featured
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
62k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
860
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
400
HTML-Aware ERB: The Path to Reactive Rendering @ RubyCon 2026, Rimini, Italy
marcoroth
2
250
The #1 spot is gone: here's how to win anyway
tamaranovitovic
3
1.1k
The AI Search Optimization Roadmap by Aleyda Solis
aleyda
1
5.9k
Crafting Experiences
bethany
1
190
Heart Work Chapter 1 - Part 1
lfama
PRO
8
36k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2.1k
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
480
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.3k
Transcript
2025年5月24日 #jawsug_tochigi JAWS-UG 栃木 # 2 オフライン開催! AWS FISはドSなのか? システムに試練を与えて強くする!
自己紹介 >深津 新太郎 PM @ 事業会社の情報システム子会社 オンプレシステムの運用・開発・リプレイスを担当 >AWS利用 2019- >好きなサービス
S3、Cloudwatch、FIS
2025/4/15AWS障害 影響ありましたか? EC2インスタンスへの主電源と二次電源が遮断されたことが原因 (https://health.aws.amazon.com/health/status?eventID=arn:aws:health:ap-northeast- 1::event/EC2/AWS_EC2_OPERATIONAL_ISSUE/AWS_EC2_OPERATIONAL_ISSUE_F82D3_02AD2D67316)
Everything fails, all the time. 全てのものはいつでも壊れうる Dr. Werner Vogels
Well-Architected Framework 信頼性の柱 Reliability 目標となる信頼性を確保するため オートスケール、マルチAZ、マルチリージョン... 要件定義段階から検討して、設計、構築 作ったものはテスト!
AWS Fault Injection Service (AWS FIS) ・マネコンから実行できる障害注入ツール ・ターゲットとアクション(障害内容)を指定 ・意図的に障害を発生させ、挙動や耐性を確認 ・回復後の処理確認も可能
今回のターゲット AWS Cloud Virtual private cloud (VPC) Front End Task
Amazon Aurora (Writer) Internet gateway Private subnet Public subnet Private subnet Fargate Back End Task Fargate Availability Zone Back End Task Front End Task Amazon Aurora (Reader) ALB ALB
2025/4/15 AWS障害 特定AZ、EC2の電源遮断 影響を受けた (15 サービス) AWS CodeCommit AWS Lambda
AWS NAT Gateway AWS Network Firewall AWS Systems Manager AWS Transit Gateway AWS VPCE PrivateLink Amazon CloudWatch Amazon Elastic Container Service Amazon Elastic Load Balancing Amazon Location Service Amazon Redshift Amazon Relational Database Service Amazon Simple Storage Service Amazon WorkSpaces
Fault Injection Service
None
このシナリオでうまくいった? No...
全部で10個のアクション(障害) リソースID、タグで指定されたターゲットに 続々と試練が課されていく
EC2障害が多い アクション(障害内容) ターゲット(障害対象)
NW一時遮断、RDSフェイルオーバー アクション(障害内容) ターゲット(障害対象)
ECS関連がない 更に試練を与えたい シナリオにアクションを追加
追加試練(ECS) ESC on EC2 :EC2障害でAZ障害が再現可能 ECS on Fargate :AZ障害が難しい ECS単体のアクション
stop-task → 同じAZで再度起動... task-network-blackhole-port (ssm-agentサイドカー必要) → タスク起動したまま...
ECS on Fargate AZ障害代替策 NWの障害アクション disrupt-connectivity をシナリオに追加して試行 Subnetに紐づくNACLをFISが差し替え 既存NACL →
新規NACL(In/Out:All Deny) 全通信遮断 結局、同じAZでタスク起動、保留中ステータス
AZが障害時、自動的にトラフィックを別のゾーンへ移動 ・AZ障害をAWSが自動で検知 ・障害中、トラフィックは別のAZへルーティングされる ・障害復旧後、自動で元の AZ にルーティングされる サポートリソース EC2、EKS、ALB、NLB... ECSがない Application
Recovery Controller(ARC)ゾーンオートシフト ECS on Fargate AZ障害代替策
ALB ARCゾーンシフト設定 デフォルトは無効 有効化を選択
ALB ARCオートゾーンシフト発生時 ALB 指定AZ ゾーンシフト検出 ALB ターゲットグループ ゾーンシフト検出
ALB ARCオートゾーンシフト発生時 実験中(NW不達によるUnhealthy) 結局、別AZで立ち上がらず
実験結果(たまたま成功) 実験後(リバランス) 実験中(AZ片寄せ)
実験結果
補足・感想 障害回復後、基本的に自動で元に戻る タグをつけ忘れることが多い(反省) AuroraのAZの戻し忘れが多い(反省) ※再フェイルオーバは行われない FargateのAZ障害について実施方を知りたい
AWS Fault Injection Service シナリオもカスタマイズできる 何度も繰り返し実行できる ARCオートゾーンシフト・ECSのAZリバランス等 実際の動きも見られる 障害試験にオススメ
障害試験はいつ実施していますか? 総合試験時? 運用中に「GameDay」実施していますか? Well-Architected Framework REL12-BP05 定期的にゲームデーを実施する Game Day:障害・回復シナリオが必要
レガシーシステムの開発・運用 開発担当 ※年齢やスキルではなく、新システムに対する経験値
レガシーシステムの開発・運用 開発担当 ※年齢やスキルではなく、新システムに対する経験値
レガシーシステムの開発・運用 開発担当 運用担当 ※年齢やスキルではなく、新システムに対する経験値 いきなり GameDayは難しい
レガシーシステムの開発・運用 開発担当 運用担当 ※年齢やスキルではなく、新システムに対する経験値 いきなり GameDayは難しい シナリオ
レベルアップ! FISで訓練!(GameDayを繰り返す)
システム レジリエンス向上 エンジニア レベルアップ まとめ
これからやるぞ! という決意表明のLTでした まだ全く実践していません! 偉そうなことを話してきましたが… 最後に
-Share your lessons-