Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
MySQLテーブル毎のデータサイズ集計をDatadog × Prometheus Export...
Search
VTRyo
January 19, 2024
Technology
480
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
MySQLテーブル毎のデータサイズ集計をDatadog × Prometheus Exporter × Kubernetesを使って自動化する / Automate data size aggregation for each MySQL table using Datadog, Prometheus Exporter and Kubernetes
2024/1/19 成長を続けるfreeeとマネーフォワードはサービスの信頼性をどう担保しているのか?
https://freee.connpass.com/event/304624/
VTRyo
January 19, 2024
More Decks by VTRyo
See All by VTRyo
そのSLO 99.9%、本当に必要ですか? 〜優先度付きSLOによる責任共有の設計思想〜 / Is that 99.9% SLO really necessary? Design philosophy of shared responsibility through prioritized SLOs
vtryo
0
1.2k
あの職員室 / That teachers' lounge
vtryo
0
140
自分だけの、誰も想像できないキャリアの育て方 〜偶然から始めるキャリアプラン〜 / Career planning starting by luckly v2
vtryo
1
490
60以上のプロダクトを持つ組織における開発者体験向上への取り組み - チームAPIとBackstageで構築する組織の可視化基盤 - / sre next 2025 Efforts to Improve Developer Experience in an Organization with Over 60 Products
vtryo
3
3k
一体いつからSRE NEXTがSREだけのカンファレンスだと錯覚していた? / When did you ever get the idea that SRE NEXT was a conference just for SREs?
vtryo
1
830
一人から始めたSREチーム3年の歩み - 求められるスキルの変化とチームのあり方 - / The three-year journey of the SRE team, which started all by myself
vtryo
9
16k
2ヶ月かかるDBアップグレード検証を最大2週間に短縮した自作Go製CLIツール「Platinum」を紹介する / Introducing Go CLI tool "Platinum" for shortened DB upgrade validation
vtryo
3
2.2k
自分だけの、誰も想像できないキャリアの育て方 ~懇親会で実践できる!偶然から始めるキャリアプラン~ / Career planning starting by luckly
vtryo
2
1.4k
なぜSREをはじめるのは難しいのか / Why is it hard to start SRE?
vtryo
1
760
Other Decks in Technology
See All in Technology
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development
yoshidashingo
1
370
Claude code Orchestra
ozakiomumkj
3
980
Diagnosing performance problems without the guesswork
elenatanasoiu
0
170
Claude Code×Terraform IaC テンプレート駆動開発
itouhi
1
360
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
50k
価格.comをAI駆動で全面刷新する ー 30年分の技術的負債を返し、次の30年の土台をつくる ー / AI Engineering Summit Tokyo 2026
tkyowa
49
53k
Sony_KMP_Journey_KotlinConf2026
sony
2
210
ルールやカスタム機能、どう使う?理想の出力を引き出すために今知りたいIBM Bob 5つの機能
muehara
1
340
新規ゲーム開発におけるAI駆動開発のリアル
202409e2
0
2.6k
データ基盤をDataformで整えた話 〜 開発環境を添えて 〜
takapy
0
110
AI駆動開発が変える、大規模開発の前提 ーHuman in the Loop から Human on the Loop へ / AIE2026
visional_engineering_and_design
16
8.5k
Rancherの紹介&Update情報(RancherJP Online Meetup #09)
yoshiyuki_kono
0
110
Featured
See All Featured
How Software Deployment tools have changed in the past 20 years
geshan
0
34k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
250
1.3M
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
280
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
3.3k
WENDY [Excerpt]
tessaabrams
11
38k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
150
Leading Effective Engineering Teams in the AI Era
addyosmani
9
2k
How STYLIGHT went responsive
nonsquared
100
6.2k
So, you think you're a good person
axbom
PRO
2
2.1k
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
220
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
160
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
65
56k
Transcript
None
- 人事労務SaaSのSRE - SRE NEXT 2022 「一人から始めるプロダクトSRE」 - Developers boost
2023 ベストスピーカー賞 - 同人・商業で作家活動 etc… 趣味は🍺と🍛とSAUNAです (🍺もSAUNAも資格有) 気になったら懇親会で…! • Money Forward, Inc 2021~ • SREチームの立ち上げ & Lead • 現在はIndividual Contributorに
SNSハッシュタグ #sre_fxm
信頼性って言われすぎて 段々よくわからなくなってくることない? #sre_fxm
信頼できるサービス = ? #sre_fxm
信頼できるサービスの特徴 3選 ユーザは利用目的を 達成できる 安心して 利用できる どんどん 進化する さまざまなメトリクスを使って 我々は日々モニタリングして守っている
#sre_fxm
お金を生み出しているシステムが 常に健全であることは ビジネス的にも価値がある #sre_fxm
マネーフォワード クラウド給与は 9年 目 #sre_fxm
常に約10年後を考えて システム開発している人 ✋ #sre_fxm
10年後どうなっているか予想できない #sre_fxm
しかし、想定せずに 運用するフェーズではなくなる瞬間がくる #sre_fxm
信頼できるサービスの特徴 3選 ユーザは利用目的を 達成できる 安心して 利用できる どんどん 進化する 成長とともに重要視する メトリクスは変わる
#sre_fxm
着実にユーザとデータ量が増えた先 #sre_fxm
運用作業限界への恐怖 #sre_fxm
"テーブルサイズ限界"のXデー #sre_fxm
Amazon Aurora 1AWS公式によると128TiBのサイ ズをサポートしている *1 MySQL 8.0のInstant DDLを使 えばある程度の規模までは運用に 問題がない
*1 https://docs.aws.amazon.com/ja_jp/AmazonRDS/latest/AuroraUserGuide/Aurora.Overview.StorageReliability.html #sre_fxm
弊チームトップエンジニアよる 検証により 限界サイズしきい値が判明する #sre_fxm
もともとSREチームではDBのサイズ推移を (思い出したときに) SQLで取ってGSSで分析していた メトリクス化して 継続的にモニタリングしよう (タイトル回収) #sre_fxm
MySQLテーブル毎のデータサイズ集計を Datadog × Prometheus Exporter × Kubernetes を使って自動化する #sre_fxm
Overview #sre_fxm
1. k8s manifest 2. MySQL settings 3. Datadog Dashboard view
#sre_fxm
k8s Manifest 公式はDockerでの使用方法のみ k8s用にごにょごにょする #sre_fxm
k8s Manifest - annotation Datadogでopenmetricsを使う 部分 init_config: {}を書き忘れて ハマった #sre_fxm
MySQL settings UserとGRANTが必要 information_schemaを取得できる最低限のもの - PROCESS - SELECT #sre_fxm
MySQL settings Q. すべてのテーブルに対してGRANTする必要がある? A. 「ユーザが適切なアクセス権限を持っているオブジェクトに対するテーブル行 だけ見れる」ということなので、付与しないと取得できない https://dev.mysql.com/doc/refman/5.7/en/information-schema-introduction.html#information-schema-privileges #sre_fxm
Datadog Dashboard view メトリクスとして取得さえできれば Dashboardであらゆる形式にして 表示できる しきい値Alertも可能に! #sre_fxm
Toil 解消! #sre_fxm
急成長サービスには地道な取り組みがつきもの 1. きたるべき未来に備えるためにモニタリングが必要だった 2. 手動で情報を取りに行っていた 3. しきい値が明確になったので自動化に踏み切った #sre_fxm
ご清聴 ありがとうございました