Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
New Relicを活用したSREの最初のステップ / NRUG OKINAWA VOL.3
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Isao Shimizu
November 19, 2024
Technology
3
1k
New Relicを活用したSREの最初のステップ / NRUG OKINAWA VOL.3
2024.11.19 New Relic User Group OKINAWA VOL.3
https://nrug-okinawa.connpass.com/event/329314/
Isao Shimizu
November 19, 2024
Tweet
Share
More Decks by Isao Shimizu
See All by Isao Shimizu
Notion x ポストモーテムで広げる組織の学び / Notion x Postmortem
isaoshimizu
1
310
「家族アルバム みてね」における運用管理・ オブザーバビリティの全貌 / Overview of Operation Management and Observability in FamilyAlbum
isaoshimizu
5
3.1k
約10年間MIXIのインフラを 支えてきたPagerDutyの活用事例 / PagerDuty on Tour 2024
isaoshimizu
6
1.3k
家族アルバム みてねにおけるGrafana活用術 / Grafana Meetup Japan Vol.1 LT
isaoshimizu
2
1.9k
家族アルバム みてねで直面してきた技術的負債 / MIXI KAG 2024
isaoshimizu
18
9.1k
今年1年のEKS運用振り返り/3-shake SRE Tech Talk
isaoshimizu
2
420
ポストモーテムの基礎知識と最新事例 / Fundamentals of Postmortem
isaoshimizu
12
3.3k
全世界1,800万人が利用する「家族アルバム みてね」におけるNew Relic活用法 / FutureStack Tokyo 2023
isaoshimizu
1
610
『家族アルバム みてね』で計測しているSLIの事例 / SLI as measured in FamilyAlbum
isaoshimizu
4
810
Other Decks in Technology
See All in Technology
フロントエンド開発者のための「厄払い」
optim
0
170
エンジニアとマネジメントの距離/Engineering and Management
ikuodanaka
3
620
OCI技術資料 : OS管理ハブ 概要
ocise
2
4.2k
AI アクセラレータチップ AWS Trainium/Inferentia に 今こそ入門
yoshimi0227
1
320
SwiftDataを覗き見る
akidon0000
0
310
20260120 Amazon VPC のパブリックサブネットを無くしたい!
masaruogura
2
160
Hardware/Software Co-design: Motivations and reflections with respect to security
bcantrill
1
260
Git Training GitHub
yuhattor
1
270
AI Agent Agentic Workflow の可観測性 / Observability of AI Agent Agentic Workflow
yuzujoe
7
2.3k
3リポジトリーを2ヶ月でモノレポ化した話 / How I turned 3 repositories into a monorepo in 2 months
kubode
0
110
現場で活かす生成AI実践セミナー「広報×AI活用」編
matyuda
0
100
[Iceberg Meetup #4] ゼロからはじめる: Apache Icebergとはなにか? / Apache Iceberg for Beginners
databricksjapan
0
440
Featured
See All Featured
Docker and Python
trallard
47
3.7k
Technical Leadership for Architectural Decision Making
baasie
1
220
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.8k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
160
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
Claude Code のすすめ
schroneko
67
210k
The Spectacular Lies of Maps
axbom
PRO
1
450
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
0
97
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Rails Girls Zürich Keynote
gr2m
96
14k
Java REST API Framework Comparison - PWX 2021
mraible
34
9.1k
Between Models and Reality
mayunak
1
170
Transcript
©MIXI New Relicを活⽤した SREの最初のステップ 2024.11.19 New Relic User Group(NRUG) OKINAWA
VOL.3 @isaoshimizu
2 ©MIXI About me • New Relic User Group 運営メンバー
• AWS Summit Tokyo 2014/2019、SRE NEXT 2020/2022、その他SRE関連勉強会に多数登壇 • 技術評論社「Software Design」寄稿、オライリー‧ジャパン「SREをはじめよう」翻訳レビュー • 週末は社会⼈吹奏楽団での活動(楽団⻑、トロンボーン約30年、たまに指揮者)、キャンプとクラフトビールが好き 清⽔ 勲 (X: @isaoshimizu) 家族アルバム みてね Engineering Manager(SRE/CRE/セキュリティ領域) SIer時代(受託‧⾃社開発) SNS「mixi」 モンスター ストライクなど みてね 2003年 2011年 2014年 2018年 2024年 新卒⼊社 ミクシィ(現MIXI)⼊社 C/C++/C#/PHP/Python/iOS/AWS Fedora/MySQL/LXC/ OpenStack Linux/MySQL/Ruby AWS/MySQL/Ruby 2022年1⽉〜EM おもに関わった技術
©MIXI 3 • SREってなに?という⽅ • SRE初学者の⽅ • SREをこれから始める⽅、始めたばかりの⽅ もちろん •
SREをすでに実践されている⽅ も⼤歓迎です!! 本セッションの主な対象者
©MIXI 4 1. SREとは 2. システムの信頼性を知る 3. New RelicはSREにどう役に⽴つ? 4.
まとめ アジェンダ
©MIXI SREとは
©MIXI 6 2024年10⽉にオライリー‧ジャパンより出版された「SREをはじめよう」※では、SREとは “組織がシステム、サービス、製品において適切なレベルの信頼性 を持続的に達成できるよう⽀援することを⽬的とした⼯学分野” と表現している。 これを3つに分解してみる 1. システム、サービス、製品(プロダクト)のためのものである 2.
適切なレベルの信頼性 3. 持続的に達成できるように⽀援する SREとは ※SREをはじめよう ―個⼈と組織による信頼性獲得への第⼀歩 David N. Blank-Edelman 著、⼭⼝ 能迪 訳 https://www.oreilly.co.jp/books/9784814400904/ みなさんが関わっているシステム、サービス、プロダクトの 適切なレベルの信頼性とはどのくらいなのか? それを持続的に達成できるように⽀援するためになにをすればよいのか?
©MIXI 7 • ビジネスとして成り⽴つ信頼性レベルはどのくらいだろうか? • ⾔い換えれば、ユーザーの満⾜度を維持できるレベルとはどのくらいか? • ⾼ければ⾼いほど良いってものではない • 100%の信頼性レベルは⾮現実的、バグや障害は起こり得るものという前提
• 過度な⽬標設定だと、様々な機能開発や構成変更などができなくなってしまう • ビジネスサイドも含めて⼀緒に⽬指すべき信頼性レベルはどの程度かを決める(会話する) • 最初はざっくりでもよい • 現状⼤きな問題が起きてないのであれば、今と同レベルという考え⽅でもよい • あとから⽬標を修正していければ良い 適切な信頼性レベルの設定 まずは現状の信頼性レベルを知る(計測する)ところから
©MIXI システムの信頼性を知る
©MIXI 9 ユーザー体験に影響する箇所において • どのくらいエラーが出ているのか、その原因となりうる箇所はどこか • どのくらいスループットが出ているのか • どのくらいのレスポンスタイムで返せているのか を把握することがまず第⼀歩。その⽅法として
• メトリクスを収集、集計する • ログを収集、集計する というのが挙げられる 信頼性をどうやって知るのか? 信頼性を計測するために必要な情報を収集‧記録し集計する
©MIXI 10 メトリクス • CloudWatch • Cloud Monitoring • Prometheus
• Grafana ログ • CloudWatch Logs • Cloud Logging • Fluentd/Fluent Bit → Data Firehose → S3/OpenSearch Service/Athena • Fluentd/Fluent Bit/Promtail → Grafana Loki → S3 • BigQuery ほかにもいろいろ 信頼性の計測⽅法いろいろ(個別サービス‧ツール利⽤)
©MIXI 11 • New Relic • Datadog • Dynatrace •
AppDynamics • Sentry • Splunk • Mackerel • Grafana Cloud • Elastic Observability ほかにもいろいろ 信頼性の計測⽅法いろいろ(オブザーバビリティSaaS利⽤) SaaSはメトリクス、ログ含め様々な情報を⼀元的に収集‧集計できるというメリット
©MIXI New RelicはSREにどう役に⽴つ?
©MIXI 13 New Relicには多くの機能がありますが、最低限これだけ覚えておくと良いもの • APM(Application Performance Monitoring) • サーバーアプリのパフォーマンスモニタリング
• Infrastructure • サーバー、コンテナ、データベース、Kubernetesのモニタリング • Mobile • モバイルアプリのパフォーマンス、クラッシュのモニタリング • Browser • Webサイトのパフォーマンスモニタリング • Log Management • ログの⼀元化、検索、可視化、アラート New Relicの基本機能 あらゆるアプリケーション‧インフラの状態を⼀元的に収集し、検索、可視化できる
©MIXI 14 特にサーバーアプリケーションの状態を知ることがオブザーバビリティの第⼀歩。 サーバー1台ずつにSSHしてログをgrep‧‧‧なんて⾯倒なことはしたくありませんよね? (⾯倒だけでなく欲しい情報を探す難しさ、⾒逃してしまうといった課題がある) APMを導⼊することですべてのサーバーで動作しているアプリケーションの状態を知ることができる! (いちいちSSHはしなくていい!) New Relic APMはGo、Java、.NET、Node.js、PHP、Python、Rubyに対応(ExperimentalとしてElixirも対応
している様⼦) APM導⼊⼿順は公式ドキュメントを参照 APMによるアプリのパフォーマンス改善 | New Relic Documentation New Relic APMでオブザーバビリティの第⼀歩
©MIXI 15 オブザーバビリティを確保することによって アプリケーションの状態が 「なんとなく良さそう...」「たまになんかおかしい...」 から 「このレスポンスタイム値なら⼤丈夫だ」「このエラー今⽇xx回出てるから直そう」 に変わる オブザーバビリティと信頼性 オブザーバビリティによって現在の信頼性を持続的に把握できる。
必要に応じて改善のアクションにつなげられる(これぞSRE)。
©MIXI まとめ
©MIXI 17 • いま扱っているシステムの信頼性がどの程度なのかを知ることがSREの第⼀歩 • 信頼性を測るためにはオブザーバビリティは⽋かせない • オブザーバビリティツールは世の中に数多くある • なにを選ぶかは要件(機能やコストなど)に合わせて
• APMの導⼊は第⼀歩⽬としてオススメ • 中規模〜⼤規模なサービスだとデータ量(コスト増)に注意 • SREのプラクティスとしては、他にもインシデントレスポンス、ポストモーテム、トイルなどが あるが「⽬指すべき信頼性レベルを決める、今の状況を知る」ためのオブザーバビリティをまず 整えておきたい • New Relicのノウハウは世の中に増加中! • 特にQiitaのアドベントカレンダーには多くのTipsが溢れているのでぜひご覧ください まとめ
©MIXI