Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ある日突然 DB の性能が 1/2(サイズのインスタンス相当)になった話
Search
hmatsu47
PRO
September 02, 2024
Technology
0
45
ある日突然 DB の性能が 1/2(サイズのインスタンス相当)になった話
ゆる SRE 勉強会 #7 ~ 1 周年記念企画 真夏の SRE 怖い話 ~ 2024/8/30
hmatsu47
PRO
September 02, 2024
Tweet
Share
More Decks by hmatsu47
See All by hmatsu47
DynamoDB Global Tables MRSC・pgvector 0.8.0・caching_sha2_password 関連アップデート
hmatsu47
PRO
0
6
10 年(+1 年)の振り返りと 2025 年の活動予定
hmatsu47
PRO
0
17
RDS/Aurora アップデート(2024 年版)
hmatsu47
PRO
0
20
Aurora DSQL と楽観的同時実行制御(OCC)
hmatsu47
PRO
0
28
Claude 3.5 で Haiku
hmatsu47
PRO
0
19
HeatWave on AWS の PrivateLink インバウンドレプリケーションで Aurora フェイルオーバーに追従する
hmatsu47
PRO
0
20
大吉祥寺.pm の LT で ChatGPT の力を借りて Next.js App Router ベースの投句箱を作って、 Lambda Web Adapter を使って公開した話
hmatsu47
PRO
0
21
pgvectorscale と pgai の話(ざっくり)
hmatsu47
PRO
0
69
pgvector 0.7.0 の新機能と、これから来る(かもしれない)pgvectorscale
hmatsu47
PRO
0
72
Other Decks in Technology
See All in Technology
EMConf JP の楽しみ方 / How to enjoy EMConf JP
pauli
2
150
My small contributions - Fujiwara Tech Conference 2025
ijin
0
1.4k
PaaSの歴史と、 アプリケーションプラットフォームのこれから
jacopen
7
1.5k
re:Invent2024 KeynoteのAmazon Q Developer考察
yusukeshimizu
1
150
Bring Your Own Container: When Containers Turn the Key to EDR Bypass/byoc-avtokyo2024
tkmru
0
860
【Oracle Cloud ウェビナー】2025年のセキュリティ脅威を読み解く:リスクに備えるためのレジリエンスとデータ保護
oracle4engineer
PRO
1
100
I could be Wrong!! - Learning from Agile Experts
kawaguti
PRO
8
3.4k
AWS re:Invent 2024 re:Cap Taipei (for Developer): New Launches that facilitate Developer Workflow and Continuous Innovation
dwchiang
0
170
【JAWS-UG大阪 reInvent reCap LT大会 サンバが始まったら強制終了】“1分”で初めてのソロ参戦reInventを数字で振り返りながら反省する
ttelltte
0
140
機械学習を「社会実装」するということ 2025年版 / Social Implementation of Machine Learning 2025 Version
moepy_stats
5
1.1k
タイミーのデータ活用を支えるdbt Cloud導入とこれから
ttccddtoki
0
130
Godot Engineについて調べてみた
unsoluble_sugar
0
400
Featured
See All Featured
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
7k
Building Better People: How to give real-time feedback that sticks.
wjessup
366
19k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Reflections from 52 weeks, 52 projects
jeffersonlam
348
20k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
230
52k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
173
51k
Code Reviewing Like a Champion
maltzj
521
39k
Making the Leap to Tech Lead
cromwellryan
133
9k
jQuery: Nuts, Bolts and Bling
dougneiner
62
7.6k
4 Signs Your Business is Dying
shpigford
182
22k
Site-Speed That Sticks
csswizardry
3
270
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.5k
Transcript
ある日突然 DB の性能が ½ になった話 ゆる SRE 勉強会 #7 ~
1 周年記念企画 真夏の SRE 怖い話 ~ 2024/8/30 まつひさ(hmatsu47)
ある日突然 DB の性能が ½ になった話 ゆる SRE 勉強会 #7 ~
1 周年記念企画 真夏の SRE 怖い話 ~ 2024/8/30 まつひさ(hmatsu47) サイズのインスタンス相当
自己紹介 松久裕保(@hmatsu47) • https://qiita.com/hmatsu47 • 現在: ◦ 名古屋で Web インフラのお守り係をしています
◦ SRE チームに所属しつつ技術検証の支援をしています ▪ フロントエンド(Next.js App Router)など ◦ 仕事に関係なく pgvector の周辺を追っかけ中です ▪ 本来(?)は MySQLer です 3
それは真夏…じゃなくて真冬の出来事 • 2018 年、正月 ◦ その前に、 4
前年の某社(オンプレ運用) • 壊れるストレージ ◦ 冗長化電源が両系同時故障 • 繋がらない修理窓口 ◦ 専属担当者付きのプレミアムサポートのはずなのに ▪
下位サポート窓口の支援に追われて本来の担当窓口に出られず🤔 • 終わらない修理立ち会い ◦ 保守部品への交換完了→動作確認→保守部品の不良発覚→再修理 ◦ 金曜夜に故障→土曜に直らず→日曜夜まで修理は続く 5
秋になり、 • なんとか AWS への Lift & Shift が完了 ◦
DB は MySQL → Aurora MySQL へ ◦ でも、若干不安定… ◦ アクセスが多いときフェイルオーバーすると DB 接続が刺さる ▪ オンプレ比でネットワークレイテンシが大きくなったため 6
有効な解決策がないまま、年末年始へ • そして 2018 年 1 月 3 日、 7
あいつらがやってきた! • Meltdown & Spectre 8 コンニチハ! \ /
と同時に、 • AWS のコンピュート基盤にパッチが当てられる(1 回目) ◦ 結果、起きたことは… 9
AWS コンピュート基盤性能低下 • 「EC2 上で動作中の memcached の性能が ⅔ になった」 ◦
ネットから流れてきた情報 • …Aurora は? 10
やっぱり性能低下していた • 同タイプ 1 段階下(½ サイズ)相当の性能に(約 ⅔) https://qiita.com/hmatsu47/items/656ebb6575c31bf1a90e 11
仕事始め早々、 • 祈りながら🐶のメトリクスグラフを眺め続けることに ◦ DB(Aurora)も心配だけど Web(EC2)も気になる… • いざとなったらスケールアップできるよう手配 ◦ 稟議を通す(💰の弾丸)
◦ ついでに新しいインスタンスタイプへの変更(R3 → R4)を準備 12
数日後、いきなり • 性能が(ほぼ)元に戻った https://qiita.com/hmatsu47/items/656ebb6575c31bf1a90e 13
結局、 • スケールアップは不要に ◦ 新しいインスタンスタイプへの変更(R3 → R4)のみ実施 ▪ 少しだけ性能アップ 14
その後、 • DB 接続の改善を実施 ◦ コネクションプーリングライブラリを(高速なものに)置き換え • フェイルオーバーが怖くなくなった! 15
一安心。 • しかし、怖い話には続きが… 16
ある日の偉い人(フィクションです。たぶん) 【補足】 当時、満足な性能が出てクラウド間レプリケーションが可能な 他クラウドの MySQL 系マネージドサービスはありませんでした (GCP の Cloud
SQL for MySQL は v1・v2 とも要件を満たさず) さすがに IaaS はいやです… 17 AWS だけでは不安だ マルチクラウド化を進めてくれ