Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
New Relicを活用したSREの最初のステップ / NRUG OKINAWA VOL.3
Search
Isao Shimizu
November 19, 2024
Technology
3
910
New Relicを活用したSREの最初のステップ / NRUG OKINAWA VOL.3
2024.11.19 New Relic User Group OKINAWA VOL.3
https://nrug-okinawa.connpass.com/event/329314/
Isao Shimizu
November 19, 2024
Tweet
Share
More Decks by Isao Shimizu
See All by Isao Shimizu
Notion x ポストモーテムで広げる組織の学び / Notion x Postmortem
isaoshimizu
1
120
「家族アルバム みてね」における運用管理・ オブザーバビリティの全貌 / Overview of Operation Management and Observability in FamilyAlbum
isaoshimizu
5
430
約10年間MIXIのインフラを 支えてきたPagerDutyの活用事例 / PagerDuty on Tour 2024
isaoshimizu
6
1.1k
家族アルバム みてねにおけるGrafana活用術 / Grafana Meetup Japan Vol.1 LT
isaoshimizu
2
1.7k
家族アルバム みてねで直面してきた技術的負債 / MIXI KAG 2024
isaoshimizu
18
8.9k
今年1年のEKS運用振り返り/3-shake SRE Tech Talk
isaoshimizu
2
360
ポストモーテムの基礎知識と最新事例 / Fundamentals of Postmortem
isaoshimizu
11
3k
全世界1,800万人が利用する「家族アルバム みてね」におけるNew Relic活用法 / FutureStack Tokyo 2023
isaoshimizu
1
550
『家族アルバム みてね』で計測しているSLIの事例 / SLI as measured in FamilyAlbum
isaoshimizu
4
770
Other Decks in Technology
See All in Technology
Mastraに入門してみた ~AWS CDKを添えて~
tsukuboshi
0
260
SDカードフォレンジック
su3158
1
630
AIエージェント開発手法と業務導入のプラクティス
ykosaka
2
1.3k
PicoRabbit: a Tiny Presentation Device Powered by Ruby
harukasan
PRO
2
240
持続可能なドキュメント運用のリアル: 1年間の成果とこれから
akitok_
1
190
Would you THINK such a demonstration interesting ?
shumpei3
1
220
PagerDuty×ポストモーテムで築く障害対応文化/Building a culture of incident response with PagerDuty and postmortems
aeonpeople
1
290
Classmethod AI Talks(CATs) #21 司会進行スライド(2025.04.17) / classmethod-ai-talks-aka-cats_moderator-slides_vol21_2025-04-17
shinyaa31
0
600
ここはMCPの夜明けまえ
nwiizo
28
9.7k
C++26アップデート 2025-03
faithandbrave
0
340
2025-04-24 "Manga AI Understanding & Localization" Furukawa Arata (CyberAgent, Inc)
ornew
1
190
AWSで作るセキュアな認証基盤with OAuth mTLS / Secure Authentication Infrastructure with OAuth mTLS on AWS
kaminashi
0
180
Featured
See All Featured
Six Lessons from altMBA
skipperchong
27
3.7k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
It's Worth the Effort
3n
184
28k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
12k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
13
680
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
19
1.1k
Speed Design
sergeychernyshev
29
900
Agile that works and the tools we love
rasmusluckow
328
21k
Automating Front-end Workflow
addyosmani
1369
200k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
How GitHub (no longer) Works
holman
314
140k
Music & Morning Musume
bryan
47
6.5k
Transcript
©MIXI New Relicを活⽤した SREの最初のステップ 2024.11.19 New Relic User Group(NRUG) OKINAWA
VOL.3 @isaoshimizu
2 ©MIXI About me • New Relic User Group 運営メンバー
• AWS Summit Tokyo 2014/2019、SRE NEXT 2020/2022、その他SRE関連勉強会に多数登壇 • 技術評論社「Software Design」寄稿、オライリー‧ジャパン「SREをはじめよう」翻訳レビュー • 週末は社会⼈吹奏楽団での活動(楽団⻑、トロンボーン約30年、たまに指揮者)、キャンプとクラフトビールが好き 清⽔ 勲 (X: @isaoshimizu) 家族アルバム みてね Engineering Manager(SRE/CRE/セキュリティ領域) SIer時代(受託‧⾃社開発) SNS「mixi」 モンスター ストライクなど みてね 2003年 2011年 2014年 2018年 2024年 新卒⼊社 ミクシィ(現MIXI)⼊社 C/C++/C#/PHP/Python/iOS/AWS Fedora/MySQL/LXC/ OpenStack Linux/MySQL/Ruby AWS/MySQL/Ruby 2022年1⽉〜EM おもに関わった技術
©MIXI 3 • SREってなに?という⽅ • SRE初学者の⽅ • SREをこれから始める⽅、始めたばかりの⽅ もちろん •
SREをすでに実践されている⽅ も⼤歓迎です!! 本セッションの主な対象者
©MIXI 4 1. SREとは 2. システムの信頼性を知る 3. New RelicはSREにどう役に⽴つ? 4.
まとめ アジェンダ
©MIXI SREとは
©MIXI 6 2024年10⽉にオライリー‧ジャパンより出版された「SREをはじめよう」※では、SREとは “組織がシステム、サービス、製品において適切なレベルの信頼性 を持続的に達成できるよう⽀援することを⽬的とした⼯学分野” と表現している。 これを3つに分解してみる 1. システム、サービス、製品(プロダクト)のためのものである 2.
適切なレベルの信頼性 3. 持続的に達成できるように⽀援する SREとは ※SREをはじめよう ―個⼈と組織による信頼性獲得への第⼀歩 David N. Blank-Edelman 著、⼭⼝ 能迪 訳 https://www.oreilly.co.jp/books/9784814400904/ みなさんが関わっているシステム、サービス、プロダクトの 適切なレベルの信頼性とはどのくらいなのか? それを持続的に達成できるように⽀援するためになにをすればよいのか?
©MIXI 7 • ビジネスとして成り⽴つ信頼性レベルはどのくらいだろうか? • ⾔い換えれば、ユーザーの満⾜度を維持できるレベルとはどのくらいか? • ⾼ければ⾼いほど良いってものではない • 100%の信頼性レベルは⾮現実的、バグや障害は起こり得るものという前提
• 過度な⽬標設定だと、様々な機能開発や構成変更などができなくなってしまう • ビジネスサイドも含めて⼀緒に⽬指すべき信頼性レベルはどの程度かを決める(会話する) • 最初はざっくりでもよい • 現状⼤きな問題が起きてないのであれば、今と同レベルという考え⽅でもよい • あとから⽬標を修正していければ良い 適切な信頼性レベルの設定 まずは現状の信頼性レベルを知る(計測する)ところから
©MIXI システムの信頼性を知る
©MIXI 9 ユーザー体験に影響する箇所において • どのくらいエラーが出ているのか、その原因となりうる箇所はどこか • どのくらいスループットが出ているのか • どのくらいのレスポンスタイムで返せているのか を把握することがまず第⼀歩。その⽅法として
• メトリクスを収集、集計する • ログを収集、集計する というのが挙げられる 信頼性をどうやって知るのか? 信頼性を計測するために必要な情報を収集‧記録し集計する
©MIXI 10 メトリクス • CloudWatch • Cloud Monitoring • Prometheus
• Grafana ログ • CloudWatch Logs • Cloud Logging • Fluentd/Fluent Bit → Data Firehose → S3/OpenSearch Service/Athena • Fluentd/Fluent Bit/Promtail → Grafana Loki → S3 • BigQuery ほかにもいろいろ 信頼性の計測⽅法いろいろ(個別サービス‧ツール利⽤)
©MIXI 11 • New Relic • Datadog • Dynatrace •
AppDynamics • Sentry • Splunk • Mackerel • Grafana Cloud • Elastic Observability ほかにもいろいろ 信頼性の計測⽅法いろいろ(オブザーバビリティSaaS利⽤) SaaSはメトリクス、ログ含め様々な情報を⼀元的に収集‧集計できるというメリット
©MIXI New RelicはSREにどう役に⽴つ?
©MIXI 13 New Relicには多くの機能がありますが、最低限これだけ覚えておくと良いもの • APM(Application Performance Monitoring) • サーバーアプリのパフォーマンスモニタリング
• Infrastructure • サーバー、コンテナ、データベース、Kubernetesのモニタリング • Mobile • モバイルアプリのパフォーマンス、クラッシュのモニタリング • Browser • Webサイトのパフォーマンスモニタリング • Log Management • ログの⼀元化、検索、可視化、アラート New Relicの基本機能 あらゆるアプリケーション‧インフラの状態を⼀元的に収集し、検索、可視化できる
©MIXI 14 特にサーバーアプリケーションの状態を知ることがオブザーバビリティの第⼀歩。 サーバー1台ずつにSSHしてログをgrep‧‧‧なんて⾯倒なことはしたくありませんよね? (⾯倒だけでなく欲しい情報を探す難しさ、⾒逃してしまうといった課題がある) APMを導⼊することですべてのサーバーで動作しているアプリケーションの状態を知ることができる! (いちいちSSHはしなくていい!) New Relic APMはGo、Java、.NET、Node.js、PHP、Python、Rubyに対応(ExperimentalとしてElixirも対応
している様⼦) APM導⼊⼿順は公式ドキュメントを参照 APMによるアプリのパフォーマンス改善 | New Relic Documentation New Relic APMでオブザーバビリティの第⼀歩
©MIXI 15 オブザーバビリティを確保することによって アプリケーションの状態が 「なんとなく良さそう...」「たまになんかおかしい...」 から 「このレスポンスタイム値なら⼤丈夫だ」「このエラー今⽇xx回出てるから直そう」 に変わる オブザーバビリティと信頼性 オブザーバビリティによって現在の信頼性を持続的に把握できる。
必要に応じて改善のアクションにつなげられる(これぞSRE)。
©MIXI まとめ
©MIXI 17 • いま扱っているシステムの信頼性がどの程度なのかを知ることがSREの第⼀歩 • 信頼性を測るためにはオブザーバビリティは⽋かせない • オブザーバビリティツールは世の中に数多くある • なにを選ぶかは要件(機能やコストなど)に合わせて
• APMの導⼊は第⼀歩⽬としてオススメ • 中規模〜⼤規模なサービスだとデータ量(コスト増)に注意 • SREのプラクティスとしては、他にもインシデントレスポンス、ポストモーテム、トイルなどが あるが「⽬指すべき信頼性レベルを決める、今の状況を知る」ためのオブザーバビリティをまず 整えておきたい • New Relicのノウハウは世の中に増加中! • 特にQiitaのアドベントカレンダーには多くのTipsが溢れているのでぜひご覧ください まとめ
©MIXI