Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
エンタープライズ企業の障害対応革新 – PagerDuty導入とその成果/pagerduty-...
Search
AEON
August 06, 2024
8
7.1k
エンタープライズ企業の障害対応革新 – PagerDuty導入とその成果/pagerduty-usecase-of-aeon
PagerDuty on Tour TOKYO 2024での発表資料です。
https://www.pagerduty.co.jp/pagerdutyontourtokyo/
AEON
August 06, 2024
Tweet
Share
More Decks by AEON
See All by AEON
NerdGraph APIに入門する/Getting Started with the NerdGraph API
aeonpeople
1
74
BizDevOps加速のカギ/the key to accelerating BizDevOps
aeonpeople
0
260
イオンネクストがGitHubに振り切った理由/GitHub-Universe-Recap-tokyo-2024
aeonpeople
3
470
SREチームの越境/crossing-Boundaries-of-the-SRE Team
aeonpeople
4
1.1k
イオンCTOが語るイオングループ全体を支えるクリティカルシステム解体新書/findy-architecture-conf-2024
aeonpeople
12
5.5k
巨大企業でDX革新を起こすということ@BTCONJP2024
aeonpeople
2
180
AEON’s blueprint for technological maturity and market competitiveness/aeon-for-technological-maturity-and-makert-competitiveness
aeonpeople
0
1.3k
HashiCorpと歩むPlatform Engineeringジャーニー/the-journey-of-platform-engineering-with-hashicorp
aeonpeople
1
520
SRE改善サイクルはチームを超えて - ダッシュボードを眺める会の取り組み/SRE improvement cycle across teams
aeonpeople
1
3.7k
Featured
See All Featured
Visualization
eitanlees
146
15k
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
It's Worth the Effort
3n
183
28k
Thoughts on Productivity
jonyablonski
67
4.4k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
247
1.3M
The Illustrated Children's Guide to Kubernetes
chrisshort
48
48k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
7k
GraphQLとの向き合い方2022年版
quramy
44
13k
Building Your Own Lightsaber
phodgson
103
6.1k
Bash Introduction
62gerente
608
210k
BBQ
matthewcrist
85
9.4k
Transcript
エンタープライズ企業の障害対応革新 – PagerDuty導入とその成果 – イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム 齋藤 光、林
如弥 PagerDuty on Tour 2024年8月6日
Agenda •各種紹介(自己、グループ、会社) •障害対応にまつわる改善の歴史 •PagerDutyによる障害対応の民主化 •まとめ
自己紹介
齋藤光( @hikkie13 ) イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム所属 (2022/5入社) SREチームの立ち上げやってきた。 趣味:ヨガ
直近の登壇: SRE NEXT 2023 「エンタープライズ企業でのSRE立ち上げ挑戦の際に 意識した事と気付き、現在地とこれから」 CloudNative Days Tokyo 2023 「イオンがKubernetesを採用してどうなった?」
イオングループ紹介
イオングループ紹介 - 関連数字 https://www.aeon.info/company/ - "INFOGRAPHICS 数字で見るイオングループ"
会社紹介
会社紹介
iAEONアプリについて 膨大なIDと購買データを集約したアプリ「iAEON」 iAEON(アイイオン)はイオングループが提供する決済機能やポイントプログラムを1つにまとめたアプリです。 イオングループ内の多数の事業会社がもつ顧客IDを一つのアプリに統合しています。 提供開始から約3年で、iAEONは880万人以上の会員を抱え(24年8月時点)、総ダウンロード数は1000万を2024年6月に突破しました。
iAEONアプリについて 膨大なIDと購買データを集約したアプリ「iAEON」 iAEON(アイイオン)はイオングループが提供する決済機能やポイントプログラムを1つにまとめたアプリです。 イオングループ内の多数の事業会社がもつ顧客IDを一つのアプリに統合しています。 提供開始から約3年で、iAEONは880万人以上の会員を抱え(24年8月時点)、総ダウンロード数は1000万を2024年6月に突破しました。 https://prtimes.jp/main/html/rd/p/000004399.000007505.html
障害対応にまつわる改善の歴史
• 全員サッカー • 誰が何してるかわからない / 何十人もいるけど、発言するのはほんの数人 • 「どうなってるんだ」おじ様の定期的なポーリング • 非プロフェッショナルの「〇〇をすればいいんじゃないの?」
• 万病に効く再起動 • 記録されないアクション • 経験、勘、大きな声によるリード • ヒロイズム • 共有されない or 実行されない振り返り エンタープライズの障害対応あるある
• 人は集まる(休日でも) • 少なくとも内部で特定の誰かを非難することはない(障害対応中もその後も) だからこそ、障害対応プロセスを改善する伸び代もその効果も大きい! 弊社にも良いところが最初からそれなりにあった
• オブザーバビリティ基盤の整備 • ポストモーテムの文化づくり • 障害対応中の記録係の文化づくり SREチームを立ち上げてからやってきたこと Betsy Beyer et.
al.編, “SRE サイトリライアビリティエンジニアリング”, オライリージャパンより サービスの信頼性の階層 • 原則として「サービスの信頼性の階層」の下から登る • 固執はせずに、すぐに始められる(かつ、効果が高い)ところは手をつける
New Relicを中心に据えたオブザーバビリティ基盤の整備 • ファクトで議論し、経験・勘・想像を排除する。 • 開発チームを利用者の主体に見据え、運用のオーナシップの意識を醸成 • 本番環境からの情報は最高のフィードバック 参考 •
Future Stack Tokyo 2023「イオンのデジタルシフト戦略を支える New Relicプラット フォームの導入と効果」 • Findy Toolsへレビュー寄稿しました SREチームを立ち上げてからやってきたこと(1):オブザーバビリティ基盤の整備
まずは始めることが大事 • テンプレートは、巨人の肩に素直に乗りGoogleが公開しているものをほぼそのまま利用 • https://sre.google/sre-book/example-postmortem/ • ポストモーテム会は、初期はSREがファリシしてサポート • 今は何も言わなくても開催されるように •
過去の特大Incidentの内容を、後から入社したメンバでも参照できるようになった SREチームを立ち上げてからやってきたこと(2):ポストモーテムの文化づくり
当初は「録画してるからええやろ」の風潮 報告・指示・共有のほとんどが口頭で、途中から入ってきた人は状況が全くわからない • まずは記録係をかって出る(勝手にやる) • 「良いな」と思った人が勝手に真似してくれるように。 • 暗黙的活動になってしまったので、障害対応ガイドに後追いで明文化 SREチームを立ち上げてからやってきたこと(3):障害対応中の記録係の文化づくり
障害対応のオーナーシップを開発チームに持たせたい • そのために・・・ (1) 障害対応ガイドの策定 ↓とてもお世話になりました • 「改訂新版 システム障害対応の教科書」 •
PagerDuty Incident Reponse (2) PagerDutyによる障害対応の民主化 ← 今日はここを話します! これからやりたいこと https://amzn.asia/d/gTEYfqq
PagerDutyによる障害対応の民主化
もりはや aka 林 如弥(@morihaya55) イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム所属 (2024/3入社) 趣味:Podcast鑑賞・映画鑑賞・読書・ジョギング
おすすめのPodcast 「COTENラジオ」 おすすめの書籍 「数理思考モデルで紐解く RULE DESIGN」 おすすめの映画 「RRR」
技術書典16(2024年5月)で 『PagerDuty FANBOOK Vol.1』をコミュニティの 有志の方と一緒に頒布しました!! https://techbookfest.org/product/fdr8Dy1kLRUbaBRgeqK0wF?productVariantID=viHF6KDk2ZVHWVJmtZcfzN
イオンスマートテクノロジーで 採用したPagerDutyのプラン
- Businessプラン - Add-Onとして o PD Automation Actions o Premium
Status Page o PagerDuty AIOps 採用したPagerDutyのプラン
- Businessプラン ←多くの便利な機能 - Add-Onとして o PD Automation Actions o
Premium Status Page o PagerDuty AIOps ←今後の期待も大きい! 採用したPagerDutyのプラン
MTTAを短縮する仕組みの民主化 ※MTTA(Mean Time To Acknowledge)
MTTAを短縮する仕組みの民主化(1):PagerDuty導入前 - PagerDutyを導入する以前から、多くのミッションクリティカルのアラートに ついて、MSPを利用した迅速な検知を行うことはできていた - 一方で検知方法や範囲の展開・追加・変更を行うためにはMSPへ特定フォー マットで依頼を行う必要があり、スピード感・柔軟性・依頼自体の容易さに一 定の課題があった
MTTAを短縮する仕組みの民主化(2):PagerDutyの基本機能 「オンコールスケジュール」 「エスカレーションポリシー」 「(個人ごと)通知ルール」 X X
MTTAを短縮する仕組みの民主化(2):PagerDutyの基本機能 - 3つともPagerDutyの基本機能として全プランで提供される - 誰がいつオンコールを担当するかを「オンコールスケジュール」で - どの順番で通知していくかを「エスカレーションポリシー」で - 通知をどのように受け取るかを「通知ルール」で 各機能の組み合わせによって大変柔軟な通知が可能
MTTAを短縮する仕組みの民主化(2):PagerDutyの基本機能 「My On-Call Shifts」 「Create Override」 X
- 「My On-Call Shifts」でカレンダー形式で自分のスケジュールを確認可能 - さらに「Create Override」を利用することで、規則性のないオンコールスケ ジュールにも対応 o 例えばパートやバイトのような、日次とか週次のような規則性がなく、毎月
の当番表で体制を組むようなケースにも対応 ▪ *管理が大変なため推奨はしない MTTAを短縮する仕組みの民主化(2):PagerDutyの基本機能
- シンプルなGUIから各機能の設定は変更できる - 設定はTerraform管理を推奨とするが、アラートを受け取る各チームが希望す る管理方法を優先 MTTAを短縮する仕組みの民主化(2):PagerDutyの基本機能
- 初めてPagerDutyを利用する方へ、操作方法などのガイドを準備 - 参考にするなら「PagerDuty利用ガイド - Responder編」がおすすめ o PagerDutyの山田さん執筆 MTTAを短縮する仕組みの民主化(2):PagerDutyの基本機能 https://qiita.com/ymotomu/items/42f825accbfca287464a
MTTAを短縮する仕組みの民主化(3):モニタリングツールとの連携 「サービス」 「インテグレーション」 「Dynamic Notifications」 X X
- PagerDutyへは主にNew RelicとAzure Monitor alertから通知 o 700以上ある「インテグレーション」に上記2つも当然対応 - 特にNew Relicの導入と展開によって各チームでアラート管理も可能に
o 参考:Future Stack Tokyo 2023「イオンのデジタルシフト戦略を支える New Relicプ ラットフォームの導入と効果」(再掲) MTTAを短縮する仕組みの民主化(3):モニタリングツールとの連携
- 「Dynamic Notifications」はNew RelicやAzure Monitor alertから PagerDutyへ通知した際のSeverityを動的に判断してHighかLowかを判定する 大変便利な機能 o Highなら電話
o Lowなら通知だけ ▪ といった運用が簡単にできる - 複雑なら「Event Orchestration」を検討 MTTAを短縮する仕組みの民主化(3):モニタリングツールとの連携
New RelicとPagerDutyのアカウントさえあ れば、各チームで簡単に迅速なアラートを作 成し、その通知をコントロールできる MTTAを短縮する仕組みの民主化(4):まとめ
PagerDutyアカウントの民主化
- PagerDutyのユーザは以下の2種類がある o Full Users: PagerDutyを利用する基本のユーザ o Stakeholder Users: オンコールは担当しない、状況を確認する向けユーザ
PagerDutyアカウントの民主化(1):ユーザの種類 現在はFull Usersのみを利用
- ユーザはEntra IDをIdPとしたSSO(Single Sign-on)で管理 - 初回のPagerDutyログイン時に自動で作成される(Auto Auto-provisioning) PagerDutyアカウントの民主化(2):Entra IDによるSingle Sign-on
- Entra ID自体はAzureアカウントやAzure DevOpsなど他用途でも利用されてきた o ”他と同じ”管理方法であるため受け入れが容易 - Entra IDのグループとユーザはHCP TerraformによるIaC管理
o ユーザ増減を希望する各チームからPRが作られSREがレビュー o 承認とマージによってデプロイが行われる PagerDutyアカウントの民主化(2):Entra IDによるSingle Sign-on
運用実績のある共通のID基盤(Entra ID)を 利用したSingle Sign-onによって、各チーム でPagerDutyの利用メンバーを容易にコント ロールできる *ただしライセンス数は限りがあるためその制御は必要 PagerDutyアカウントの民主化(3):まとめ
AIOpsによる障害対応サポート
- ChatGPT、GitHub Copilot、New Relic AIなどAI技術の恩恵はすでに体感 - PagerDutyにおいてもAIを活用したさまざまな利便性が受けられる期待 - AIOpsの価格は現在$699(Yealy Pricing)
- Businessの$41/ユーザの約17人分と考えても価値がある...はず! - 2024年7月30日に「PagerDuty Advance」が発表 AIOpsによる障害対応サポート(1):AIOpsの概要 https://www.pagerduty.com/blog/pagerduty-advance-genai-features-for-the-pagerduty-operations-cloud/
- 「Assistant for Slack(旧名PagerDuty Copilot)」をベータで検証 - インシデントのノートの活用でかなり正確な概要を回答してくれた AIOpsによる障害対応サポート(2):Assistant for Slack
• 前半でも紹介した「どうなってるんだ」と定期的なポーリングへの1つの回答になる AIOpsによる障害対応サポート(2):Assistant for Slack
• 過去の類似インシデントを提案してくれる機能は、障害対応経験豊富な猛者が 行う「あの時の障害と似てない?」をAIが代行してくれる AIOpsによる障害対応サポート(2):Assistant for Slack
• 類似インシデントは表示も見やすい(いつ、何件、発生期間) AIOpsによる障害対応サポート(2):Assistant for Slack
• イオンスマートテクノロジーとしては"Slack"の利用があるが、関連するイオン グループ企業の標準のチャットツールは"Slack"ではなく"Teams"... AIOpsによる障害対応サポート(2):Assistant for Slack 「PagerDuty Assistant for Teams」
もお待ちしております!!!! ※ (Support for Microsoft Teams coming soon.)の記述あり https://www.pagerduty.com/blog/pagerduty-advance-genai-features-for-the-pagerduty-operations-cloud/
• 紹介した”チャットサポート”や”過去類似インシデント”機能の他も期待 • 中でも「ポストモーテムの自動生成」の機能は、社内で定着化しつつあるポス トモーテムの文化をより加速できる(小規模なインシデントでも書ける) AIOpsによる障害対応サポート(3):その他のAI機能にも期待 チャットツールとAI機能による各種サポートは、PagerDutyを直 接利用しないユーザさえも巻き込んで障害対応支援が可能となり、 「障害対応の民主化」がより進んでいく...!
まとめ
• 障害対応の改善に取り組んでいる • PagerDutyの導入はMTTA短縮や障害対応の民主化に大きく貢献 o 基本機能で柔軟なオンコールローテーションを実現 • AI機能の今後の進化にも大きな期待を寄せている o 「PagerDuty
Advance」発表にわくわくだ!! まとめ
告知
募集しています!