Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SRE改善サイクルはチームを超えて - ダッシュボードを眺める会の取り組み/SRE impro...
Search
AEON
September 18, 2024
Technology
1
4.1k
SRE改善サイクルはチームを超えて - ダッシュボードを眺める会の取り組み/SRE improvement cycle across teams
2024年9月18日開催「一休×AEON 事業会社のサービスを支える基盤開発トーク」の登壇資料です。
https://ikyu.connpass.com/event/327095/
AEON
September 18, 2024
Tweet
Share
More Decks by AEON
See All by AEON
プラットフォーム転換期におけるGitHub Copilot活用〜Coding agentがそれを加速するか〜 / Leveraging GitHub Copilot During Platform Transition Periods
aeonpeople
1
230
JTCにおける内製×スクラム開発への挑戦〜内製化率95%達成の舞台裏/JTC's challenge of in-house development with Scrum
aeonpeople
0
260
2025年にHCP Vaultを学び直して見えた景色 / Lessons and New Perspectives from Relearning HCP Vault in 2025
aeonpeople
0
250
イオン店舗一覧ページのパフォーマンスチューニング事例 / Performance tuning example for AEON store list page
aeonpeople
2
440
会社もクラウドも違うけど 通じたコスト削減テクニック/Cost optimization strategies effective regardless of company or cloud provider
aeonpeople
2
620
SREがコストセンターではないことを大きな声と実例で伝えたい/SRE Is Not a Cost Center: Real-World Stories That Prove True Value
aeonpeople
1
900
SREチームの越境と対話〜どのようにしてイオンスマートテクノロジーは横軸運用チームの廃止に至ったか〜/the-Cross-border-and-dialogue-of-SRE
aeonpeople
13
7.5k
PagerDuty×ポストモーテムで築く障害対応文化/Building a culture of incident response with PagerDuty and postmortems
aeonpeople
3
830
【内製開発Summit 2025】イオンスマートテクノロジーの内製化組織の作り方/In-house-development-summit-AST
aeonpeople
2
2.8k
Other Decks in Technology
See All in Technology
「Linux」という言葉が指すもの
sat
PRO
4
140
KotlinConf 2025_イベントレポート
sony
1
140
AIエージェント開発用SDKとローカルLLMをLINE Botと組み合わせてみた / LINEを使ったLT大会 #14
you
PRO
0
130
20250910_障害注入から効率的復旧へ_カオスエンジニアリング_生成AIで考えるAWS障害対応.pdf
sh_fk2
3
280
株式会社ログラス - 会社説明資料【エンジニア】/ Loglass Engineer
loglass2019
4
65k
未経験者・初心者に贈る!40分でわかるAndroidアプリ開発の今と大事なポイント
operando
5
750
機械学習を扱うプラットフォーム開発と運用事例
lycorptech_jp
PRO
0
650
S3アクセス制御の設計ポイント
tommy0124
3
200
COVESA VSSによる車両データモデルの標準化とAWS IoT FleetWiseの活用
osawa
1
390
「その開発、認知負荷高すぎませんか?」Platform Engineeringで始める開発者体験カイゼン術
sansantech
PRO
2
560
EncryptedSharedPreferences が deprecated になっちゃった!どうしよう! / Oh no! EncryptedSharedPreferences has been deprecated! What should I do?
yanzm
0
490
Webアプリケーションにオブザーバビリティを実装するRust入門ガイド
nwiizo
7
890
Featured
See All Featured
YesSQL, Process and Tooling at Scale
rocio
173
14k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.4k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Git: the NoSQL Database
bkeepers
PRO
431
66k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
131
19k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.6k
Intergalactic Javascript Robots from Outer Space
tanoku
272
27k
Embracing the Ebb and Flow
colly
87
4.8k
Rebuilding a faster, lazier Slack
samanthasiow
83
9.2k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
34
6k
Building Applications with DynamoDB
mza
96
6.6k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.9k
Transcript
SRE改善サイクルはチームを超えて - ダッシュボードを眺める会の取り組み - イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム 林 如弥
一休×AEON 事業会社のサービスを支える基盤開発トーク 2024年9月18日
Agenda • 各種紹介(自己、グループ、会社) • SREへどう向き合うか • 可観測性(Observability)の実装 • 可観測性(Observability)の展開 o
ダッシュボードを眺める会 • まとめ
自己紹介
もりはや aka 林 如弥(@morihaya55) イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム所属 (2024/3入社) 趣味:Podcast鑑賞・映画鑑賞・読書・ジョギング
おすすめのPodcast 「COTENラジオ」 おすすめの書籍 「数理思考モデルで紐解く RULE DESIGN」 おすすめの映画 「RRR」
イオングループ紹介
イオングループ紹介 - 関連数字 https://www.aeon.info/company/ - "INFOGRAPHICS 数字で見るイオングループ"
イオングループ紹介 - イオンの主な事業 https://www.aeon.info/company/message/profile/ - "イオン会社案内2024 - イオンの主な事業"
会社紹介
会社紹介
会社紹介
iAEONアプリについて 膨大なIDと購買データを集約したアプリ「iAEON」 iAEON(アイイオン)はイオングループが提供する決済機能やポイントプログラムを1つにまとめたアプリです。 イオングループ内の多数の事業会社がもつ顧客IDを一つのアプリに統合しています。 提供開始から約3年で、iAEONは940万人以上の会員を抱え(24年9月時点)、総ダウンロード数は1000万を2024年6月に突破しました。
IAEONアプリについて - おすすめ機能 レシートレス機能 - 2024/6/21にリリース!!! https://www.aeon.com/aeonapp/service/digitalreceipt/ - "レシートレス機能"
イオンで利用している技術スタック(一部) https://speakerdeck.com/aeonpeople/aeon-engineer-recruitment-deck - "イオングループエンジニア向け会社紹介資料 P19"
SREへどう向き合うか
SREへどう向き合うか 「こんにちは!SREのもりはやです!!」 リリース管理 インシデントレスポンス コスト削減
SREへどう向き合うか SREについて、私たちは常に理解のための 反復を続ける必要を感じています。 https://aeon.connpass.com/event/310105/ - "大企業経営におけるSREの重要性 | AEON TECH HUB
#3"
SREへどう向き合うか SREには優れたWeb(英語)や書籍が提供されています。 And more...
SREへどう向き合うか SREには優れたWeb(英語)や書籍が提供されています。 上記の書籍だけで 総ページ数: 2,570 P 総計金額: 26,180円
SREへどう向き合うか 「全てを完全に理解するには人生は短すぎる...」 「ダニング=クルーガー効果の最初の山の頂はどこだ?」 https://biz.moneyforward.com/payroll/basic/63123/ - "ダニングクルーガー効果とは?原因や対処法を具体例を用いて解説!"
SREへどう向き合うか とりあえずの一冊を個人的にあげるとすれば 『SREエンタープライズロードマップ - Google - Site Reliability Engineering』 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
SREへどう向き合うか • Webで日本語化されてPDFで公開(無料) • ページ数は64Pのみ • 『SRE本』と『ワークブック』をベースに • 訳者はGoogleのSREである山口 能迪氏
• 序文のメッセージの心強さ 「職種に関係なく、技術システムを設計、実装、また は保守している方なら、きっとお役に立てることがあ るはずです。」 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
SREへどう向き合うか この発表は"第1章 エンタープライズ SRE ことはじめ"の以 下をテーマとしています。 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
可観測性(Observability) の実装
可観測性(Observability)の実装 ASTではNew Relicによる可観測性を実装しています。 https://zenn.dev/aeonpeople/articles/3de631bafd1631 - FutureStack Tokyo 2023に登壇しました
可観測性(Observability)の実装 選定から実装に至る流れ(抜粋) https://speakerdeck.com/aeonpeople/ionnotesitarusihutozhan-lue-wozhi-eru-newrelichuratutohuomunodao-ru-toxiao-guo-1bef3f5a-3d81-4b8d-b587-f92c7800f364
可観測性(Observability)の実装 広がり続けているNew Relicの利用ユーザは300人を超えています。 (Basicなど全てのタイプを含む) ※最近ではMicrosoft Entra IDでのSSOにより展開スピードも向上
可観測性(Observability) の展開 - ダッシュボードを眺める会
可観測性(Observability)の展開 このようにして、 New Relicの実装により「システムの状態をみたい時 に見れる土台」はできつつあります。
可観測性(Observability)の展開 利用するユーザも増え続けており、 APMを利用できる有料ユーザは、 常に枯渇気味な程の人気ぶりです。
可観測性(Observability)の展開 さてここで、 みなさんにも問い掛けたい。
可観測性(Observability)の展開 お手元からアクセス可能な 「可観測性を高めるツール」、 ”平時”でも確認していますか?
可観測性(Observability)の展開 • アラートが発生した • お客様などから問題報告を受けた • リリースなどの変更を行う こんな時だけ見ていませんか?
可観測性(Observability)の展開 ”非常時”・”戦時”に活用するのはもちろん正 しい利用方法。 ただし急ぎの時にいきなり活用できるほどシ ステムもツールもシンプルではない...。
可観測性(Observability)の展開 定点観測会、親しみを込めて 「ダッシュボードを眺める会」の取り組み。
可観測性(Observability)の展開 特別なことはしていません。 • 週次で定期的に実施 • 参加者は開発・SREなど2チーム以上 • 発生したアラートの棚卸し • APMを中心に各項目をざっと見る
• コストの増減もチェック
可観測性(Observability)の展開 例1: アラートにならなかった異常を補足 グラフ: コンテナリスタートの数
可観測性(Observability)の展開 例1: アラートにならなかった異常を補足 • KubernetesのPodが特定のタイミングで一斉にリスタートした • Podのリスタート自体のアラートは入れていない • 今回のケースではDBのメンテナンスによるアプリケーションのヘルス チェックがエラーになったことで再起動が起きていた
可観測性(Observability)の展開 例2: 想定された変化を再確認 グラフ: モバイルアプリのバージョンが入れ替わっていく
可観測性(Observability)の展開 例2: 想定された変化を再確認 • モバイルアプリのリリースを2日目から行った • およそ4日目には最新バージョンが90%以上展開された • 一定の割合で古いバージョンは残り続けている
可観測性(Observability)の展開 例3: 放置すると危険な処理速度の予兆を発見 グラフ: とあるサービスのトランザクション時間
可観測性(Observability)の展開 例3: 放置すると危険な処理速度の予兆を発見 • 徐々にレスポンスが遅くなっていく典型的なグラフの上がり方 • Active Usersなどと比較しても比例がなかった • データ量やキャッシュなどの単純増加するケースでこのような動きが
• ワーニングアラートになる前に気付けてみんな嬉しい
可観測性(Observability)の展開 例4: プラス効果の変化も捉えられる グラフ: とあるサービスのトランザクション時間
可観測性(Observability)の展開 例4: プラス効果の変化も捉えられる • 3日目から全体の処理時間が半分程度に低下 • 水色部分の処理が明確に低下している • とあるDBのメンテナンス効果が出ていた
可観測性(Observability)の展開 このような変化を見つけて原因について議論 をし、必要な取り組みを検討することでダッ シュボードおよびNew Relicへの感度が上 がっていく手応えがある。 会を続けることで未然に障害を防いだ成果も 少なくない。
可観測性(Observability)の展開 さらには副次的な効果も • 課題作成・課題の棚卸し • 直近タスクのトピックなどの共有 • アイスブレイク・雑談 • 「ザイオンス効果(単純接触効果)」で互
いの仕事がやりやすく!
可観測性(Observability)の展開 この素晴らしい取り組みは私の入社前から 脈々と続いており、すでに開催数は ”50回以上” となり、定番の場として定着しつつも、予想 外の発見ができる場としても続いています。
可観測性(Observability)の展開 ここで再掲。「生成的な文化が必要」とありました。 https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
可観測性(Observability)の展開 「生成」には、”ものを生み出す”意味のほかに、 ”成長”や”状態の変化”の意味もあります。 この取り組みの結果をまとめているConfluenceのページの トップには以下の文言が記載されています。 本発表の準備を通して、理想・変化に向けて挑戦を続けて いくとの気持ちを新たにしました。
まとめ
• SREの情報は多くある中で、個人的なおすすめは 『SREエンタープライズロードマップ - Google - Site Reliability Engineering』 •
イオンスマートテクノロジーではNew Relicで可観測性を実装 • 可観測性の展開として、チームを跨いで広げる「ダッシュボードを眺める会」 • 展開の後でSREが不在で良くなることも目指す • SREの成功に不可欠な「生成的な文化」を持って柔軟に変化を起こしていきたい まとめ
告知
募集しています!