Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SRE改善サイクルはチームを超えて - ダッシュボードを眺める会の取り組み/SRE impro...
Search
AEON
September 18, 2024
Technology
1
4k
SRE改善サイクルはチームを超えて - ダッシュボードを眺める会の取り組み/SRE improvement cycle across teams
2024年9月18日開催「一休×AEON 事業会社のサービスを支える基盤開発トーク」の登壇資料です。
https://ikyu.connpass.com/event/327095/
AEON
September 18, 2024
Tweet
Share
More Decks by AEON
See All by AEON
SREチームの越境と対話〜どのようにしてイオンスマートテクノロジーは横軸運用チームの廃止に至ったか〜/the-Cross-border-and-dialogue-of-SRE
aeonpeople
1
260
PagerDuty×ポストモーテムで築く障害対応文化/Building a culture of incident response with PagerDuty and postmortems
aeonpeople
3
720
【内製開発Summit 2025】イオンスマートテクノロジーの内製化組織の作り方/In-house-development-summit-AST
aeonpeople
2
2.5k
【ITmedia DX Summit 23/基調講演】イオンが構築する超大規模データ基盤と、その活用戦略
aeonpeople
2
820
イオングループ プロダクト人材向け会社紹介資料 / AEON Product Talent Recruitment Deck
aeonpeople
0
1.1k
DevOpsに向けたテスト方針/Testing Policy for DevOps
aeonpeople
1
180
HCP TerraformとAzure:イオンスマートテクノロジーのインフラ革新 / HCP Terraform and Azure AEON Smart Technology's Infrastructure Innovation
aeonpeople
3
1.7k
イオンスマートテクノロジーとTerraformの歩み、そしてPlaftorm Engineering/AEON Smart Technology with Terraform
aeonpeople
3
1k
2025年に活用していきたいAzure関連のブラウザ拡張 / Azure-Related Browser Extensions to Leverage in 2025
aeonpeople
1
450
Other Decks in Technology
See All in Technology
データグループにおけるフロントエンド開発
lycorptech_jp
PRO
1
110
Zero Data Loss Autonomous Recovery Service サービス概要
oracle4engineer
PRO
2
7.8k
NewSQLや分散データベースを支えるRaftの仕組み - 仕組みを理解して知る得意不得意
hacomono
PRO
2
170
DatabricksにOLTPデータベース『Lakebase』がやってきた!
inoutk
0
110
Geminiとv0による高速プロトタイピング
shinya337
1
270
使いたいMCPサーバーはWeb APIをラップして自分で作る #QiitaBash
bengo4com
0
2k
fukabori.fm 出張版: 売上高617億円と高稼働率を陰で支えた社内ツール開発のあれこれ話 / 20250704 Yoshimasa Iwase & Tomoo Morikawa
shift_evolve
PRO
2
7.8k
KubeCon + CloudNativeCon Japan 2025 Recap by CA
ponkio_o
PRO
0
300
United Airlines Customer Service– Call 1-833-341-3142 Now!
airhelp
0
170
How Do I Contact HP Printer Support? [Full 2025 Guide for U.S. Businesses]
harrry1211
0
120
Lazy application authentication with Tailscale
bluehatbrit
0
210
IPA&AWSダブル全冠が明かす、人生を変えた勉強法のすべて
iwamot
PRO
2
150
Featured
See All Featured
Building an army of robots
kneath
306
45k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
950
BBQ
matthewcrist
89
9.7k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
4 Signs Your Business is Dying
shpigford
184
22k
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.4k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
138
34k
Docker and Python
trallard
44
3.5k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
Making the Leap to Tech Lead
cromwellryan
134
9.4k
Transcript
SRE改善サイクルはチームを超えて - ダッシュボードを眺める会の取り組み - イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム 林 如弥
一休×AEON 事業会社のサービスを支える基盤開発トーク 2024年9月18日
Agenda • 各種紹介(自己、グループ、会社) • SREへどう向き合うか • 可観測性(Observability)の実装 • 可観測性(Observability)の展開 o
ダッシュボードを眺める会 • まとめ
自己紹介
もりはや aka 林 如弥(@morihaya55) イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム所属 (2024/3入社) 趣味:Podcast鑑賞・映画鑑賞・読書・ジョギング
おすすめのPodcast 「COTENラジオ」 おすすめの書籍 「数理思考モデルで紐解く RULE DESIGN」 おすすめの映画 「RRR」
イオングループ紹介
イオングループ紹介 - 関連数字 https://www.aeon.info/company/ - "INFOGRAPHICS 数字で見るイオングループ"
イオングループ紹介 - イオンの主な事業 https://www.aeon.info/company/message/profile/ - "イオン会社案内2024 - イオンの主な事業"
会社紹介
会社紹介
会社紹介
iAEONアプリについて 膨大なIDと購買データを集約したアプリ「iAEON」 iAEON(アイイオン)はイオングループが提供する決済機能やポイントプログラムを1つにまとめたアプリです。 イオングループ内の多数の事業会社がもつ顧客IDを一つのアプリに統合しています。 提供開始から約3年で、iAEONは940万人以上の会員を抱え(24年9月時点)、総ダウンロード数は1000万を2024年6月に突破しました。
IAEONアプリについて - おすすめ機能 レシートレス機能 - 2024/6/21にリリース!!! https://www.aeon.com/aeonapp/service/digitalreceipt/ - "レシートレス機能"
イオンで利用している技術スタック(一部) https://speakerdeck.com/aeonpeople/aeon-engineer-recruitment-deck - "イオングループエンジニア向け会社紹介資料 P19"
SREへどう向き合うか
SREへどう向き合うか 「こんにちは!SREのもりはやです!!」 リリース管理 インシデントレスポンス コスト削減
SREへどう向き合うか SREについて、私たちは常に理解のための 反復を続ける必要を感じています。 https://aeon.connpass.com/event/310105/ - "大企業経営におけるSREの重要性 | AEON TECH HUB
#3"
SREへどう向き合うか SREには優れたWeb(英語)や書籍が提供されています。 And more...
SREへどう向き合うか SREには優れたWeb(英語)や書籍が提供されています。 上記の書籍だけで 総ページ数: 2,570 P 総計金額: 26,180円
SREへどう向き合うか 「全てを完全に理解するには人生は短すぎる...」 「ダニング=クルーガー効果の最初の山の頂はどこだ?」 https://biz.moneyforward.com/payroll/basic/63123/ - "ダニングクルーガー効果とは?原因や対処法を具体例を用いて解説!"
SREへどう向き合うか とりあえずの一冊を個人的にあげるとすれば 『SREエンタープライズロードマップ - Google - Site Reliability Engineering』 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
SREへどう向き合うか • Webで日本語化されてPDFで公開(無料) • ページ数は64Pのみ • 『SRE本』と『ワークブック』をベースに • 訳者はGoogleのSREである山口 能迪氏
• 序文のメッセージの心強さ 「職種に関係なく、技術システムを設計、実装、また は保守している方なら、きっとお役に立てることがあ るはずです。」 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
SREへどう向き合うか この発表は"第1章 エンタープライズ SRE ことはじめ"の以 下をテーマとしています。 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
可観測性(Observability) の実装
可観測性(Observability)の実装 ASTではNew Relicによる可観測性を実装しています。 https://zenn.dev/aeonpeople/articles/3de631bafd1631 - FutureStack Tokyo 2023に登壇しました
可観測性(Observability)の実装 選定から実装に至る流れ(抜粋) https://speakerdeck.com/aeonpeople/ionnotesitarusihutozhan-lue-wozhi-eru-newrelichuratutohuomunodao-ru-toxiao-guo-1bef3f5a-3d81-4b8d-b587-f92c7800f364
可観測性(Observability)の実装 広がり続けているNew Relicの利用ユーザは300人を超えています。 (Basicなど全てのタイプを含む) ※最近ではMicrosoft Entra IDでのSSOにより展開スピードも向上
可観測性(Observability) の展開 - ダッシュボードを眺める会
可観測性(Observability)の展開 このようにして、 New Relicの実装により「システムの状態をみたい時 に見れる土台」はできつつあります。
可観測性(Observability)の展開 利用するユーザも増え続けており、 APMを利用できる有料ユーザは、 常に枯渇気味な程の人気ぶりです。
可観測性(Observability)の展開 さてここで、 みなさんにも問い掛けたい。
可観測性(Observability)の展開 お手元からアクセス可能な 「可観測性を高めるツール」、 ”平時”でも確認していますか?
可観測性(Observability)の展開 • アラートが発生した • お客様などから問題報告を受けた • リリースなどの変更を行う こんな時だけ見ていませんか?
可観測性(Observability)の展開 ”非常時”・”戦時”に活用するのはもちろん正 しい利用方法。 ただし急ぎの時にいきなり活用できるほどシ ステムもツールもシンプルではない...。
可観測性(Observability)の展開 定点観測会、親しみを込めて 「ダッシュボードを眺める会」の取り組み。
可観測性(Observability)の展開 特別なことはしていません。 • 週次で定期的に実施 • 参加者は開発・SREなど2チーム以上 • 発生したアラートの棚卸し • APMを中心に各項目をざっと見る
• コストの増減もチェック
可観測性(Observability)の展開 例1: アラートにならなかった異常を補足 グラフ: コンテナリスタートの数
可観測性(Observability)の展開 例1: アラートにならなかった異常を補足 • KubernetesのPodが特定のタイミングで一斉にリスタートした • Podのリスタート自体のアラートは入れていない • 今回のケースではDBのメンテナンスによるアプリケーションのヘルス チェックがエラーになったことで再起動が起きていた
可観測性(Observability)の展開 例2: 想定された変化を再確認 グラフ: モバイルアプリのバージョンが入れ替わっていく
可観測性(Observability)の展開 例2: 想定された変化を再確認 • モバイルアプリのリリースを2日目から行った • およそ4日目には最新バージョンが90%以上展開された • 一定の割合で古いバージョンは残り続けている
可観測性(Observability)の展開 例3: 放置すると危険な処理速度の予兆を発見 グラフ: とあるサービスのトランザクション時間
可観測性(Observability)の展開 例3: 放置すると危険な処理速度の予兆を発見 • 徐々にレスポンスが遅くなっていく典型的なグラフの上がり方 • Active Usersなどと比較しても比例がなかった • データ量やキャッシュなどの単純増加するケースでこのような動きが
• ワーニングアラートになる前に気付けてみんな嬉しい
可観測性(Observability)の展開 例4: プラス効果の変化も捉えられる グラフ: とあるサービスのトランザクション時間
可観測性(Observability)の展開 例4: プラス効果の変化も捉えられる • 3日目から全体の処理時間が半分程度に低下 • 水色部分の処理が明確に低下している • とあるDBのメンテナンス効果が出ていた
可観測性(Observability)の展開 このような変化を見つけて原因について議論 をし、必要な取り組みを検討することでダッ シュボードおよびNew Relicへの感度が上 がっていく手応えがある。 会を続けることで未然に障害を防いだ成果も 少なくない。
可観測性(Observability)の展開 さらには副次的な効果も • 課題作成・課題の棚卸し • 直近タスクのトピックなどの共有 • アイスブレイク・雑談 • 「ザイオンス効果(単純接触効果)」で互
いの仕事がやりやすく!
可観測性(Observability)の展開 この素晴らしい取り組みは私の入社前から 脈々と続いており、すでに開催数は ”50回以上” となり、定番の場として定着しつつも、予想 外の発見ができる場としても続いています。
可観測性(Observability)の展開 ここで再掲。「生成的な文化が必要」とありました。 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
可観測性(Observability)の展開 「生成」には、”ものを生み出す”意味のほかに、 ”成長”や”状態の変化”の意味もあります。 この取り組みの結果をまとめているConfluenceのページの トップには以下の文言が記載されています。 本発表の準備を通して、理想・変化に向けて挑戦を続けて いくとの気持ちを新たにしました。
まとめ
• SREの情報は多くある中で、個人的なおすすめは 『SREエンタープライズロードマップ - Google - Site Reliability Engineering』 •
イオンスマートテクノロジーではNew Relicで可観測性を実装 • 可観測性の展開として、チームを跨いで広げる「ダッシュボードを眺める会」 • 展開の後でSREが不在で良くなることも目指す • SREの成功に不可欠な「生成的な文化」を持って柔軟に変化を起こしていきたい まとめ
告知
募集しています!