Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SRE改善サイクルはチームを超えて - ダッシュボードを眺める会の取り組み/SRE impro...
Search
AEON
September 18, 2024
Technology
1
2.7k
SRE改善サイクルはチームを超えて - ダッシュボードを眺める会の取り組み/SRE improvement cycle across teams
2024年9月18日開催「一休×AEON 事業会社のサービスを支える基盤開発トーク」の登壇資料です。
https://ikyu.connpass.com/event/327095/
AEON
September 18, 2024
Tweet
Share
More Decks by AEON
See All by AEON
巨大企業でDX革新を起こすということ@BTCONJP2024
aeonpeople
2
130
AEON’s blueprint for technological maturity and market competitiveness/aeon-for-technological-maturity-and-makert-competitiveness
aeonpeople
0
1.2k
HashiCorpと歩むPlatform Engineeringジャーニー/the-journey-of-platform-engineering-with-hashicorp
aeonpeople
1
470
1000万DL人を支えるiAEONアプリ:完全停止を防ぐ耐障害性の設計/iAEON app supporting 10 million users
aeonpeople
7
5.2k
データ連携をチートせよ。~イオンが目指すコネクティビティデータ基盤~/Aeon's goal of creating a connectivity data platform
aeonpeople
1
230
New Relicで実践する外形監視
aeonpeople
2
300
内製化の背景/Back ground of insourcing
aeonpeople
2
110
エンタープライズ企業の障害対応革新 – PagerDuty導入とその成果/pagerduty-usecase-of-aeon
aeonpeople
8
6.9k
AeonNext における Collaborativeな開発/Collaborative Development at AeonNext
aeonpeople
1
170
Other Decks in Technology
See All in Technology
Taming you application's environments
salaboy
0
200
SAP Community and Developer Update
sygyzmundovych
0
350
プロダクト活用度で見えた真実 ホリゾンタルSaaSでの顧客解像度の高め方
tadaken3
0
260
100 名超が参加した日経グループ横断の競技型 AWS 学習イベント「Nikkei Group AWS GameDay」の紹介/mediajaws202411
nikkei_engineer_recruiting
1
180
リンクアンドモチベーション ソフトウェアエンジニア向け紹介資料 / Introduction to Link and Motivation for Software Engineers
lmi
4
300k
iOSチームとAndroidチームでブランチ運用が違ったので整理してます
sansantech
PRO
0
160
Zennのパフォーマンスモニタリングでやっていること
ryosukeigarashi
0
560
マルチモーダル / AI Agent / LLMOps 3つの技術トレンドで理解するLLMの今後の展望
hirosatogamo
39
13k
初心者向けAWS Securityの勉強会mini Security-JAWSを9ヶ月ぐらい実施してきての近況
cmusudakeisuke
0
150
【Pycon mini 東海 2024】Google Colaboratoryで試すVLM
kazuhitotakahashi
2
600
OCI Network Firewall 概要
oracle4engineer
PRO
0
4.2k
The Rise of LLMOps
asei
9
1.9k
Featured
See All Featured
Become a Pro
speakerdeck
PRO
25
5k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
Statistics for Hackers
jakevdp
796
220k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
364
24k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
246
1.3M
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
28
2k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
0
130
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
430
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
250
21k
4 Signs Your Business is Dying
shpigford
180
21k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.1k
Transcript
SRE改善サイクルはチームを超えて - ダッシュボードを眺める会の取り組み - イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム 林 如弥
一休×AEON 事業会社のサービスを支える基盤開発トーク 2024年9月18日
Agenda • 各種紹介(自己、グループ、会社) • SREへどう向き合うか • 可観測性(Observability)の実装 • 可観測性(Observability)の展開 o
ダッシュボードを眺める会 • まとめ
自己紹介
もりはや aka 林 如弥(@morihaya55) イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム所属 (2024/3入社) 趣味:Podcast鑑賞・映画鑑賞・読書・ジョギング
おすすめのPodcast 「COTENラジオ」 おすすめの書籍 「数理思考モデルで紐解く RULE DESIGN」 おすすめの映画 「RRR」
イオングループ紹介
イオングループ紹介 - 関連数字 https://www.aeon.info/company/ - "INFOGRAPHICS 数字で見るイオングループ"
イオングループ紹介 - イオンの主な事業 https://www.aeon.info/company/message/profile/ - "イオン会社案内2024 - イオンの主な事業"
会社紹介
会社紹介
会社紹介
iAEONアプリについて 膨大なIDと購買データを集約したアプリ「iAEON」 iAEON(アイイオン)はイオングループが提供する決済機能やポイントプログラムを1つにまとめたアプリです。 イオングループ内の多数の事業会社がもつ顧客IDを一つのアプリに統合しています。 提供開始から約3年で、iAEONは940万人以上の会員を抱え(24年9月時点)、総ダウンロード数は1000万を2024年6月に突破しました。
IAEONアプリについて - おすすめ機能 レシートレス機能 - 2024/6/21にリリース!!! https://www.aeon.com/aeonapp/service/digitalreceipt/ - "レシートレス機能"
イオンで利用している技術スタック(一部) https://speakerdeck.com/aeonpeople/aeon-engineer-recruitment-deck - "イオングループエンジニア向け会社紹介資料 P19"
SREへどう向き合うか
SREへどう向き合うか 「こんにちは!SREのもりはやです!!」 リリース管理 インシデントレスポンス コスト削減
SREへどう向き合うか SREについて、私たちは常に理解のための 反復を続ける必要を感じています。 https://aeon.connpass.com/event/310105/ - "大企業経営におけるSREの重要性 | AEON TECH HUB
#3"
SREへどう向き合うか SREには優れたWeb(英語)や書籍が提供されています。 And more...
SREへどう向き合うか SREには優れたWeb(英語)や書籍が提供されています。 上記の書籍だけで 総ページ数: 2,570 P 総計金額: 26,180円
SREへどう向き合うか 「全てを完全に理解するには人生は短すぎる...」 「ダニング=クルーガー効果の最初の山の頂はどこだ?」 https://biz.moneyforward.com/payroll/basic/63123/ - "ダニングクルーガー効果とは?原因や対処法を具体例を用いて解説!"
SREへどう向き合うか とりあえずの一冊を個人的にあげるとすれば 『SREエンタープライズロードマップ - Google - Site Reliability Engineering』 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
SREへどう向き合うか • Webで日本語化されてPDFで公開(無料) • ページ数は64Pのみ • 『SRE本』と『ワークブック』をベースに • 訳者はGoogleのSREである山口 能迪氏
• 序文のメッセージの心強さ 「職種に関係なく、技術システムを設計、実装、また は保守している方なら、きっとお役に立てることがあ るはずです。」 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
SREへどう向き合うか この発表は"第1章 エンタープライズ SRE ことはじめ"の以 下をテーマとしています。 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
可観測性(Observability) の実装
可観測性(Observability)の実装 ASTではNew Relicによる可観測性を実装しています。 https://zenn.dev/aeonpeople/articles/3de631bafd1631 - FutureStack Tokyo 2023に登壇しました
可観測性(Observability)の実装 選定から実装に至る流れ(抜粋) https://speakerdeck.com/aeonpeople/ionnotesitarusihutozhan-lue-wozhi-eru-newrelichuratutohuomunodao-ru-toxiao-guo-1bef3f5a-3d81-4b8d-b587-f92c7800f364
可観測性(Observability)の実装 広がり続けているNew Relicの利用ユーザは300人を超えています。 (Basicなど全てのタイプを含む) ※最近ではMicrosoft Entra IDでのSSOにより展開スピードも向上
可観測性(Observability) の展開 - ダッシュボードを眺める会
可観測性(Observability)の展開 このようにして、 New Relicの実装により「システムの状態をみたい時 に見れる土台」はできつつあります。
可観測性(Observability)の展開 利用するユーザも増え続けており、 APMを利用できる有料ユーザは、 常に枯渇気味な程の人気ぶりです。
可観測性(Observability)の展開 さてここで、 みなさんにも問い掛けたい。
可観測性(Observability)の展開 お手元からアクセス可能な 「可観測性を高めるツール」、 ”平時”でも確認していますか?
可観測性(Observability)の展開 • アラートが発生した • お客様などから問題報告を受けた • リリースなどの変更を行う こんな時だけ見ていませんか?
可観測性(Observability)の展開 ”非常時”・”戦時”に活用するのはもちろん正 しい利用方法。 ただし急ぎの時にいきなり活用できるほどシ ステムもツールもシンプルではない...。
可観測性(Observability)の展開 定点観測会、親しみを込めて 「ダッシュボードを眺める会」の取り組み。
可観測性(Observability)の展開 特別なことはしていません。 • 週次で定期的に実施 • 参加者は開発・SREなど2チーム以上 • 発生したアラートの棚卸し • APMを中心に各項目をざっと見る
• コストの増減もチェック
可観測性(Observability)の展開 例1: アラートにならなかった異常を補足 グラフ: コンテナリスタートの数
可観測性(Observability)の展開 例1: アラートにならなかった異常を補足 • KubernetesのPodが特定のタイミングで一斉にリスタートした • Podのリスタート自体のアラートは入れていない • 今回のケースではDBのメンテナンスによるアプリケーションのヘルス チェックがエラーになったことで再起動が起きていた
可観測性(Observability)の展開 例2: 想定された変化を再確認 グラフ: モバイルアプリのバージョンが入れ替わっていく
可観測性(Observability)の展開 例2: 想定された変化を再確認 • モバイルアプリのリリースを2日目から行った • およそ4日目には最新バージョンが90%以上展開された • 一定の割合で古いバージョンは残り続けている
可観測性(Observability)の展開 例3: 放置すると危険な処理速度の予兆を発見 グラフ: とあるサービスのトランザクション時間
可観測性(Observability)の展開 例3: 放置すると危険な処理速度の予兆を発見 • 徐々にレスポンスが遅くなっていく典型的なグラフの上がり方 • Active Usersなどと比較しても比例がなかった • データ量やキャッシュなどの単純増加するケースでこのような動きが
• ワーニングアラートになる前に気付けてみんな嬉しい
可観測性(Observability)の展開 例4: プラス効果の変化も捉えられる グラフ: とあるサービスのトランザクション時間
可観測性(Observability)の展開 例4: プラス効果の変化も捉えられる • 3日目から全体の処理時間が半分程度に低下 • 水色部分の処理が明確に低下している • とあるDBのメンテナンス効果が出ていた
可観測性(Observability)の展開 このような変化を見つけて原因について議論 をし、必要な取り組みを検討することでダッ シュボードおよびNew Relicへの感度が上 がっていく手応えがある。 会を続けることで未然に障害を防いだ成果も 少なくない。
可観測性(Observability)の展開 さらには副次的な効果も • 課題作成・課題の棚卸し • 直近タスクのトピックなどの共有 • アイスブレイク・雑談 • 「ザイオンス効果(単純接触効果)」で互
いの仕事がやりやすく!
可観測性(Observability)の展開 この素晴らしい取り組みは私の入社前から 脈々と続いており、すでに開催数は ”50回以上” となり、定番の場として定着しつつも、予想 外の発見ができる場としても続いています。
可観測性(Observability)の展開 ここで再掲。「生成的な文化が必要」とありました。 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
可観測性(Observability)の展開 「生成」には、”ものを生み出す”意味のほかに、 ”成長”や”状態の変化”の意味もあります。 この取り組みの結果をまとめているConfluenceのページの トップには以下の文言が記載されています。 本発表の準備を通して、理想・変化に向けて挑戦を続けて いくとの気持ちを新たにしました。
まとめ
• SREの情報は多くある中で、個人的なおすすめは 『SREエンタープライズロードマップ - Google - Site Reliability Engineering』 •
イオンスマートテクノロジーではNew Relicで可観測性を実装 • 可観測性の展開として、チームを跨いで広げる「ダッシュボードを眺める会」 • 展開の後でSREが不在で良くなることも目指す • SREの成功に不可欠な「生成的な文化」を持って柔軟に変化を起こしていきたい まとめ
告知
募集しています!