Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
チーム一丸となって信頼性向上! 多種多様な監視でサイトを守る取り組みの紹介
Search
Red Frasco
May 18, 2023
Technology
1
1.4k
チーム一丸となって信頼性向上! 多種多様な監視でサイトを守る取り組みの紹介
SRE大集合!みんなで学ぶ、信頼性を高めるための取り組みLT大会の登壇資料です。
Red Frasco
May 18, 2023
Tweet
Share
More Decks by Red Frasco
See All by Red Frasco
Datadog Synthetics 活用事例紹介
red_frasco
0
310
バッチ処理が終わらない!? -処理時間を90%削減した話-
red_frasco
1
240
不動産情報サイトにおけるデータ収集で頑張ったこと
red_frasco
0
250
コストに関するヒヤリハットのお話 ~コスト超過で手遅れにならないためにすべきこと~
red_frasco
0
380
不動産情報サイトにおけるリアルタイムデータ分析基盤の活用
red_frasco
1
230
Spring Boot 2 から 3 へバージョンアップしてみた
red_frasco
4
16k
Red Frasco 会社紹介
red_frasco
3
16k
AWS環境におけるSpring BootアプリケーションのCI/CDをCircleCIで構築した話
red_frasco
2
650
Feature 環境の自動生成と Blue Green Deployment で効率的かつ安全なリリースプロセスを構築
red_frasco
1
390
Other Decks in Technology
See All in Technology
MLflowはどのようにLLMOpsの課題を解決するのか
taka_aki
0
150
アジリティを高めるテストマネジメント #QiitaQualityForward
makky_tyuyan
1
490
【内製開発Summit 2025】イオンスマートテクノロジーの内製化組織の作り方/In-house-development-summit-AST
aeonpeople
2
1.2k
Ruby on Railsで持続可能な開発を行うために取り組んでいること
am1157154
3
180
フォーイット_エンジニア向け会社紹介資料_Forit_Company_Profile.pdf
forit_tech
1
1.7k
Охота на косуль у древних
ashapiro
0
130
Introduction to OpenSearch Project - Search Engineering Tech Talk 2025 Winter
tkykenmt
2
250
“常に進化する”開発現場へ! SHIFTが語るアジャイルQAの未来/20250306 Yuma Murase
shift_evolve
0
140
CSPMとのつきあい方
nantokanare
0
110
AI自体のOps 〜LLMアプリの運用、AWSサービスとOSSの使い分け〜
minorun365
PRO
9
1.2k
User Story Mapping + Inclusive Team
kawaguti
PRO
3
540
OCI Success Journey OCIの何が評価されてる?疑問に答える事例セミナー(2025年2月実施)
oracle4engineer
PRO
2
240
Featured
See All Featured
Rails Girls Zürich Keynote
gr2m
94
13k
A better future with KSS
kneath
238
17k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
227
22k
Product Roadmaps are Hard
iamctodd
PRO
51
11k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.7k
Git: the NoSQL Database
bkeepers
PRO
429
65k
Measuring & Analyzing Core Web Vitals
bluesmoon
6
260
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
129
19k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
115
51k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
21
2.5k
The Cost Of JavaScript in 2023
addyosmani
47
7.5k
Transcript
チーム⼀丸となって信頼性向上︕ 多種多様な監視でサイトを守る取り組みの紹介 2023/05/19 SRE⼤集合︕みんなで学ぶ、信頼性を⾼めるための取り組みLT⼤会
⾃⼰紹介 猪熊 朔也 ( いのくま さくや ) / @sinocloudon -
株式会社 Red Frasco - インフラエンジニア u経歴 - ⾦融系 SIer, リクルート(SUUMO), ⾦融系スタートアップ, 現職 uその他コメント - うどんが好きです - ラーメン⼆郎が好きです - うどん脳 をプロフィールアイコンにすることが多いです 2
3 前提
⼿短に前提のお話 • 弊社 = 不動産業界 に特化した技術組織 • 今回の LT は実際に我々が運⽤している
いい部屋ネット (https://www.eheya.net/)における取り組みが題材です 4
5 我々が運⽤している 基盤全体構成
6 我々が運⽤している 基盤全体構成 監視・モニタリング対象 たくさんありますよね
7 本題
SRE, 信頼性を⾼める がテーマということで… • 監視・モニタリングの話をします • 役割や職種にとらわれず、必要な項⽬を⾒極めながら、みんな で監視・モニタリング運⽤しています • 弊社では、監視を
Datadog に集約しています 8
9 Datadog Monitor 数 120
10 ⼀挙紹介と⾔いたかったのですが 時間が⾜りないので
多種多様な監視でサイトを 守る取り組みの紹介 5選 !
12 1. KPI のしきい値監視
KPI 監視・モニタリング • 何を︓CV(コンバージョン)数 • どうやって︓しきい値監視 • なぜ︓AWS移⾏中で⼤きなリリースが多いので、最終防衛ライ ンとしてCV数を常時監視 13
事業に貢献できているかどうかを監視する • CV 数が下がっていないか常に注意を払う • ⼤きなリリース後でもCV数が落ちていない安⼼感を得られる 14 Database CV 数取得
メトリクスPUT • Database から CV 数を取得して、 Datadog に連携 • デバイスごと(PC/SP/App)に CV 数を監 視・モニタリング
15 2. ステータスコードの Anomaly 監視
ステータスコード 監視・モニタリング • 何を︓HTTP ステータスコード(301, 302, 404, 499) • どうやって︓Anomaly
監視 • なぜ︓Bot, 攻撃などの短期間のアクセス傾向の変化を早期検知・対 処する 16 ※ 50x は、エラー監視という位置付けでしきい値監視してます
監視 SaaS の機能を活⽤して「いつもと違う」を検知する • Datadog の Anomaly Monitor が便利 •
元々は、CTO がお試しでシュッと⼊れたのがはじまり • 本⼈も忘れた頃に Anomaly Monitor が鳴る • しきい値がよくわからない、しきい値では正しく検知できない ものは Anomaly 監視がかなり効く 17 恥ずかしがり屋のCTO なに︕この監視︕誰⼊れたの︕︖(あなたです)
18 3. WAFによるアクセスブロック監視
WAF によるアクセスブロック監視・モニタリング • 何を︓403 エラーレート • どうやって︓しきい値監視、異常監視 • なぜ︓脆弱性探索など不審なアクセスを検知する 19
ブロックされなかったアクセスは⽉次モニタリングで対処 • ブロックをすり抜けてきた怪しいアクセスを⾒つけ出す • IP や User Agent の上位層を時系列で⾒てあたりをつける 20
21 4. 多段 Synthetics Test
多段 Synthetics Test • 何を︓各種 L7 エンドポイント(www.eheya.net, CDN, オリジン) •
どうやって︓Synthetics Test • なぜ︓アラートの出⽅によって問題箇所の特定がすぐにできる 22
1つではなく多段で⾒る • 多段 Synthetics にすることで、問題発⽣時の切り分けがスムーズ • ①, ②, ③ のどの部分から不調になっているかがすぐわかる
23 Route 53 CloudFront ELB ECS オンプレ基盤 Route 53 の部分だけではなく、すべての エンドポイントに対して Synthetics Test を実⾏する ① ② ③
24 5. マルチアカウントのコスト予実管理
AWS コスト監視・モニタリング • 何を︓利⽤料実績, 利⽤料予測(Org全体、各アカウント) • どうやって︓しきい値監視 • なぜ︓予算超過リスク、想定外の利⽤を早期検知して削減策を打つ 25
Monitor による検知と⽉次のダッシュボード確認でコスト最適化 • 実績だけでなく予測も監視していることで想定外のリソース使 ⽤を検知できる • 例︓急に誰かがGPUインスタンス⽴てたなど • ダッシュボードを併⽤して、全体を俯瞰 •
重点ポイントを⾒極め、必要に応じてコスト最適化策実施 • 実績例1︓以下のような最適化策を実施して、15% 程度コスト削減 • 不要な VPC エンドポイント削除 • ログ出⼒量の最適化 • 実績例2︓sandbox (検証⽤環境) の予算をあえてゼロにする • 誰かが使⽤したらすぐ検知できるので、消し忘れがないよう周知可能 26
27 コストモニタリングダッシュボード@Datadog
28 各アカウントのコスト状況
29 まとめ
おわりに • 弊社の監視・モニタリングの取り組みについて紹介しました • みなさんと同じものや異なるものはありましたか︖ • うちではこんなことやってるよ︕など情報交換あればぜひ︕ 30 No. 監視内容
開発チームからの⼀⾔コメント 1 KPI モニタリング アラートが鳴った実績はないが、⼤型リリースを実施すると きの安⼼感が違います︕ 2 ステータスコードの異常監視 Datadog など監視 SaaS を使っている⽅はぜひ試してほしい︕ 3 WAFによるアクセスブロック これを導⼊して不審なアクセスを継続的に遮断できています 4 多段の Synthetics Test 昨⽇もこれで気づけた不具合があり、有⽤さを実感してます 5 マルチアカウントのコスト予 実管理 予実管理されているので、まずはコストのことを気にせず挑 戦できるのが最⾼です(ただし、鳴ったらすぐ対処)
31
END OF PRESENTATION ご清聴ありがとうございました
33 Appendix. (時間の都合上、以下は発表では⾔及しません)
スロークエリ監視・モニタリング • 何を︓SQL 実⾏時間 • どうやって︓しきい値監視 • なぜ︓レスポンス遅延発⽣時の切り分けに有効 34
バウンスメール監視・モニタリング • 何を︓ハードバウンス • どうやって︓しきい値監視 • なぜ︓店舗への連絡やリカバリ対応を即時に⾏うため 35
バッチ実⾏監視・モニタリング • 何を︓バッチ実⾏有無、バッチ実⾏結果 • どうやって︓しきい値監視 • なぜ︓バッチが想定通り動いていることを確認するため 36
処理対象ファイル数監視・モニタリング • 何を︓物件ファイル数 • どうやって︓しきい値監視 • なぜ︓処理対象データが全量届いているかどうか確認する 37
開発環境の数もモニタリングしています • Feature ブランチごとの環境を⾃動⽣成しています • 環境数が増えすぎてコストを圧迫しないようモニタリング 38 ※ 環境⾃動⽣成やBGデプロイ周りの詳細は以下のスライド参照 https://speakerdeck.com/red_frasco/feature-huan-jing-nozi-dong-sheng-cheng-to-blue-green-deployment-dexiao-lu-de-katuan-quan-
naririsupurosesuwogou-zhu