Upgrade to Pro — share decks privately, control downloads, hide ads and more …

4月15日の AZ 障害をテクサポの中の人目線で振り返ってみる

4月15日の AZ 障害をテクサポの中の人目線で振り返ってみる

[誰でも参加OK] Amazon Q DeveloperワークショップとスタートアップなLT大会( https://jawsugdei.connpass.com/event/352867/ )の LT 枠でお話しした際のスライド資料になります。

5分の枠なのに 34 枚のスライドを作っちゃったので現地では早口&端折ってしゃべってしまいましたが本来お話ししたかった内容の全てです。
#jawsugdei #ashibinaa #AWSStartup #AWSStartupCommunity

<要旨>
2025年4月15日に発生した AWS の東京リージョンの AZ 障害(apne1-az4)の発生時にいただいたお問い合わせのうち、もしかしたらお問い合わせいただく必要がなかったかもしれないと思われるものがあることをお話ししました。
その根拠として AWS が公式に出しているガイドライン「技術的なお問い合わせに関するガイドライン ( https://aws.amazon.com/jp/premiumsupport/tech-support-guidelines/ )」や「Design for failure」という考え方が推奨されている点を紹介しました。

Avatar for kazzpapa3

kazzpapa3

May 17, 2025
Tweet

More Decks by kazzpapa3

Other Decks in Technology

Transcript

  1. #jawsugdei #jawsug • 名前:市野 和明(いちの かずあき) • 所属:株式会社サーバーワークス    マネージドサービス部 AWSサポート課

    • 好きな AWS サービス:AWS CLI • (テクサポとして) 嫌いな AWS サービス: FSxW、AWS Deadline Cloud AWS Billing(請求ロジックが難解すぎる) • 趣味:ミクが好き、酒を飲む •   @kazzpapa3 はじめまして 4 Kazuaki Ichino
  2. #jawsugdei #jawsug • リセラーという立場にいます • 雑にいうと AWS さんから AWS アカウントを仕入れてお客様に再販しています

    • その関係性からお客様は AWS に直接問い合わせできず、弊社が間に入って対 応しています • 立場上、双方の中間地点から見える風景から喋ってますが、個人の意見ですー わたしの立場について 5 Kazuaki Ichino へーしゃ(リセラー) お客様 AWS AWS アカウント お問い合わせ
  3. #jawsugdei #jawsug • ちょうど AWS Community Builders (通称 CBs) に新たに就任された方々と

    既存の CBs たちで AWS さんの大阪オフィスで集まろー、と企画していた日 の前日の出来事でした いろいろありましたね 7 Kazuaki Ichino
  4. #jawsugdei #jawsug • ちょうど AWS Community Builders (通称 CBs) に新たに就任された方々と

    既存の CBs たちで AWS さんの大阪オフィスで集まろー、と企画していた日 の前日の出来事でした • プライマリおよびセカンダリ電源の供給が中断されたことが原因となり、 東京リージョンの apne1-az4 で基盤障害が発生しました いろいろありましたね 8 Kazuaki Ichino
  5. #jawsugdei #jawsug • ちょうど AWS Community Builders (通称 CBs) に新たに就任された方々と

    既存の CBs たちで AWS さんの大阪オフィスで集まろー、と企画していた日 の前日の出来事でした • プライマリおよびセカンダリ電源の供給が中断されたことが原因となり、 東京リージョンの apne1-az4 で基盤障害が発生しました • CBs たちで集まる会では、 「今朝出勤したら、まあまあ問い合わせありました」なんて言っていました いろいろありましたね 9 Kazuaki Ichino
  6. #jawsugdei #jawsug 代表的なもの • 弊社のリソースで影響を受けたものはありますか? • ap-northeast-1c は大丈夫でしたか? • なぜ発生したのか?AWS

    として再発防止策はどう考えている? • 世間では騒がれているようですが、弊社のリソースには影響がありません 10 Kazuaki Ichino
  7. #jawsugdei #jawsug • 2024年7月の AWS Startup Meetup 大阪 ReBoot で登壇した際のスライドの

    余談部分で話していた時の小タイトルの一つ ◦ 内容は少し変えていますが、当日聞いてくださっていた方重複になってすみません これは… 13 Kazuaki Ichino
  8. #jawsugdei #jawsug これは… 14 Kazuaki Ichino • 2024年7月の AWS Startup

    Meetup 大阪 ReBoot で登壇した際のスライドの 余談部分で話していた時の小タイトルの一つ ◦ 内容は少し変えていますが、当日聞いてくださっていた方重複になってすみません • AWS がエンドカスタマーに伝えたい、理解しておいてほしいと思っている (であろう)内容はちゃんとアウトプットされている
  9. #jawsugdei #jawsug クラウドに合わせた設計を 16 Kazuaki Ichino • そもそもホワイトペーパーで Design for

    failure と言っている ◦ “Everything fails all the time.” – Werner Vogels • https://d1.awsstatic.com/events/reinvent/2019/REPEAT_1_Designing_ for_failure_Architecting_resilient_systems_on_AWS_ARC335-R1.pdf
  10. #jawsugdei #jawsug • AWS Service Level Agreements (SLAs) としてサービスごとに公開されてい ます

    ◦ 上記ドキュメントに限らず、AWS の文書は英語版で読もうぜ! ◦ 特に SLA のページは日本語版がほぼ古い(けどちゃんと英語版が常に最新って書いてる) • 例えば EC2 で見たときに「インスタンスレベル」と「リージョンレベル」の 2つ定義されている ◦ 単体でインスタンスを利用しているか、マルチ AZ で同時にデプロイしているかで異なる SLA、SLO を正しく理解する 17 Kazuaki Ichino
  11. #jawsugdei #jawsug • 弊社のリソースで影響を受けたものはありますか? ◦ AWS Health Dashboard に記載があります ◦

    また、お客様のシステム全体としてダウンタイムの発生がなければ良しとなるのでは? 何をどこまで追い求めるのか? 23 Kazuaki Ichino 一つ一つすべての AWS サービスについて あれは?これは?とお問い合わせいただいていました。 個別のサービスで影響を受けたかどうか?ではなく、さまざまな AWS サービスを 複合して構築した「お客様システム」が正しく稼働していたのであれば「それで良 し」とできないかな?と思いながら対応した例です
  12. #jawsugdei #jawsug • ap-northeast-1c は大丈夫でしたか? ◦ アベイラビリティーゾーン名は一意ではないのでアカウントごとに依存性があります ◦ AWS リソースのアベイラビリティーゾーン

    IDs - AWS Resource Access Manager ドキュメントにあるので問い合わせ不要だったかもしれない例 24 Kazuaki Ichino AWS 公式ドキュメントに解説がある通り、アベイラビリティーゾーン名と アベイラビリティーゾーン ID の違いを正しく理解していれば不要だったかもしれ ない問い合わせの一例
  13. #jawsugdei #jawsug • なぜ発生したのか?AWS として再発防止策はどう考えている? ◦ 技術的なお問い合わせに関するガイドライン | AWS サポート

    にある通り、お客様でコント ロール不能な部分なのでお伝えしてもお客様の回避策に影響がないため開示しない内容です ◦ また Design for failure を推奨し、そもそも、マルチ AZ を推奨しています シングル AZ 構成にしていたことで事象の影響を受けたのであれば設計通りと言えます AWS が回答しない、としているもの 25 Kazuaki Ichino そもそも故障の原因を開示していない、あるいは、開示してもお客様の回避策や次 回の行動に影響がないため開示しないとなっている範疇のため、ガイドラインに書 かれている以上の情報が出てくることが期待できない
  14. #jawsugdei #jawsug • 世間では騒がれているようですが、弊社のリソースには影響がありません ◦ 良かったじゃないですか… ◦ マルチ AZ 構成が取れていて、設計通りダウンタイムが発生していないのであれば

    それでよくない? 逆に疑心暗鬼になった?と思われた例 26 Kazuaki Ichino 世間が騒いでいるからといって自身に通知がなかったことに対して 変に(逆に)うちは大丈夫なの?って思われたんじゃないかなと思う問い合わせ AWS が推奨する構成を取れていて、影響を受けなかったのであれば スルーしたらいいんじゃない?と思った好例
  15. #jawsugdei #jawsug 今回、場合によっては問い合わせ不要だったかもしれない • 弊社のリソースで影響を受けたものはありますか? • ap-northeast-1c は大丈夫でしたか? • なぜ発生したのか?AWS

    として再発防止策はどう考えている? • 世間では騒がれているようですが、弊社のリソースには影響がありません 27 Kazuaki Ichino
  16. #jawsugdei #jawsug • 個別事情を含むので資料への明記は控えますが、 わたしが社内に集まっている問い合わせを見渡した中で、 これは問い合わせをせざるを得なかった例だと思ったもの ◦ マルチ AZ 配置を行うよう

    Auto Scaling を構成し、 ベストプラクティスに沿った設計をしていた ◦ その他、構成上考えられる範囲でシングル AZ になっているポイントや 単一障害点になっている点はなかった ◦ それでも、とある構成要素が正しく起動してこなかった(キャパシティ不足でもない) ◦ つまり、AWS のドキュメントや設計指針に沿った構成をしていたのに 構成しているサービスにダウンタイムが発生してしまった これは問い合わせせざるを得なかったね…と思った例 28 Kazuaki Ichino AWS サポート、製品担当部署に調査してもらったところ、 とあるサービスのコントロールプレーン側で想定外の事象が起こっていた それに引きずられて発生してしまったとのこと
  17. #jawsugdei #jawsug サポートプランの選択で迷う場合 • いくつかの問い合わせ例を見ましたが、実装や設計によっては 問い合わせが不要とできる(結果的に問い合わせしても一緒)なケースは存在 する • ベストプラクティスに沿っていない(予算などから沿わない判断を許容してい るものを含む)場合、発生しうるものだと理解しておく

    • ガイドラインやベストプラクティスに沿った設計と実装をした上で、 ◦ 事象発生した際のビジネスインパクトをどのように評価するのか? ◦ サポートプランと選択する緊急度に応じて設定されている、初回応答目標時間がビジネス的に 許容できるのか? 上記を考慮した上でサポートプランを選択するのがいいのではないか? と思っています 30 Kazuaki Ichino
  18. #jawsugdei #jawsug • 生成 AI を活用した「AWS大喜利大会」 • よくばって大きく二つのコンテンツを用意しまし た a.

    即興大喜利 「大喜利枠」としてお申し込みいただいた最大5名の オオギリストに、AWS に絡んだお題に回答いただき ます。 その審査員はなんと Amazon Bedrock を活用して作 成した「判定くん」! 大喜利回答に自信のあるオオギリストは「大喜利 枠」として奮って応募ください。 生成 AI の審査員力を冷静沈着に見極めながら、要所 要所でツッコミたい方は「傾聴枠」でぜひ! b. 2. みんなの生成AI画像大喜利 4つのテーマに沿った生成 AI による生成画像を事前 に募集しています。 会の後半でご紹介して楽しく談笑したいと思いま す。 6月6日に JAWS-UG 神戸でイベントやります 32 Kazuaki Ichino 2025-06-06(金) 19:00 〜 21:00 @中央区文化センター(会議室1002) https://jawsug-kobe.connpass.com/event/354076/