Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
バクラクにおける可観測性向上の取り組み
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
yuu26
October 30, 2024
Technology
2.4k
4
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
バクラクにおける可観測性向上の取り組み
SRE NEXT 2024をふりかえって 〜学びをもとにした取り組み事例紹介〜
https://layerx.connpass.com/event/328643/
yuu26
October 30, 2024
More Decks by yuu26
See All by yuu26
プロダクト成長を支える開発基盤とスケールに伴う課題
yuu26
4
1.6k
LLM 機能を支える Langfuse / ClickHouse のサーバレス化
yuu26
9
5.8k
Datadog 関数クイズ (初級編)
yuu26
0
160
AWS アーキテクチャクイズ
yuu26
3
1.5k
EMになって半年でやったこと
yuu26
1
3.2k
ローカル開発環境をAWSへ移行して爆速にした
yuu26
15
11k
AWS Systems Manager で実現する SSH レスでセキュアなクラウド運用
yuu26
2
4.9k
Other Decks in Technology
See All in Technology
AIAU_UMEMOGU_ninomiya_slide
ninomiya_ii
0
240
【2026年版】 ベクトル検索とEmbedding最前線
mocobeta
20
5.4k
OTel × Datadog で 「AI活用」を計測し、改善に繋げる
shihochan
2
440
就職⽀援サービスにおけるキャリアアドバイザーのシフトスケジューリング
recruitengineers
PRO
1
150
スタートアップにAmazon EKSは早すぎる? マルチプロダクト戦略を加速する Platform Engineeringの実践 / Is Amazon EKS Too Soon for Startups? Practical Platform Engineering to Accelerate a Multi-Product Strategy
elmodev09
1
460
エラーバジェットのアラートのタイミングを考える.pdf
kairim0
0
180
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
personabb
1
540
AWS Security Agent といっしょに脅威モデリングをやってみよう
amarelo_n24
1
180
現地で盛り上がった WWDC26 Keynote
zozotech
PRO
1
270
小さく始める AI 活用推進 ― 日経電子版 Web チームの事例/nikkei-tech-talk47
nikkei_engineer_recruiting
0
300
AI-DLCを “そのまま導入しなかった”話 ~組織に合わせてアジャストした 私たちの実践共有~
hiroramos4
PRO
0
230
2026TECHFRESH畢業分享會 - AI 時代的人生存檔點
line_developers_tw
PRO
0
1.3k
Featured
See All Featured
Color Theory Basics | Prateek | Gurzu
gurzu
0
370
Building the Perfect Custom Keyboard
takai
2
800
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
330
Optimizing for Happiness
mojombo
378
71k
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
460
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.7k
Documentation Writing (for coders)
carmenintech
77
5.4k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.7k
The Curse of the Amulet
leimatthew05
1
13k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
1
250
Transcript
© LayerX Inc. バクラクにおける可観測性向上の取り組み 2024/10/30 SRE NEXT 2024をふりかえって 〜学びをもとにした取り組み事例紹介〜
© LayerX Inc. 2 株式会社LayerX バクラク事業部 Platform Engineering 部 DevOps
グループ m_on_yu yuu26jp 職歴 SIer インフラエンジニア Web サービス SRE x 3社 LayerX アカウント 上原 佑介 ⾃⼰紹介
3 © LayerX Inc. 「すべての経済活動を、デジタル化する。」をミッションに掲げ、 法⼈⽀出管理サービス「バクラク」や企業内業務のデジタル化を⽀援するサービスを提供しています。 事業紹介 バクラク事業 企業活動のインフラとなる法⼈⽀ 出管理(BSM)SaaSを開発‧提供
Fintech事業 ソフトウェアを駆使したアセットマネジ メント‧証券事業を合弁会社にて展開 AI‧LLM事業 ⽂書処理を中⼼とした、LLMの活⽤によ るプロセスのリデザイン
⽬次 Agenda • バクラクが抱えていた可観測性の課題 • SRE NEXT 2024 で得られたこと •
取り組んだこと • Datadog を⽤いた運⽤改善 • 今後の取り組み
© LayerX Inc. 5 • ⽇々開発が進むプロダクトが多数あり、プロダクトの負荷傾向も常に変化している • 個別のインフラ監視等はできているが、最終的なユーザー影響度を把握しづらい • 積み上げてきたモニターの総量が多く、ノイズとなっているアラートがある
これらの状況を改善するため、 DevOps として「サービスインフラの可観測性を⾼め、改善する」という⽬標を⽴てた 解決策のヒントを得るために SRE NEXT 2024 へ参加 バクラクが抱えていた可観測性の課題
© LayerX Inc. 6 可観測性や運⽤改善に関するセッションで印象に残った部分 • SLOの理解を深めて、ユーザーエクスペリエンスを向上する⽅法 https://sre-next.dev/2024/schedule/#sp008 ◦ すべての値がいい
SLI になるわけではない ◦ いい SLI とはユーザー体験に紐づいているもの (レスポンス成功率やレイテンシ等) • Enabling Client-side SLO https://sre-next.dev/2024/schedule/#jp005 ◦ 現場のエンジニアに寄り添ったアラートチューニング ◦ ⽂化醸成のためにダッシュボードを作成して定期的に確認する場を設けた これらのセッションから得たヒントを元に運⽤改善へ SRE NEXT 2024 で得られたこと
© LayerX Inc. 7 • 取得できている情報の棚卸し ◦ プロダクトごとに開発時期やアーキテクチャが異なり、取得できている情報がバラバラ ◦ 情報が取れているように⾒えても、計測範囲や単位
(秒やミリ秒) が揃っていない • プラットフォームの改善 ◦ Enabling チームによるログフォーマットの統⼀ ▪ レスポンスコードや処理時間を全プロダクト同じ基準で収集可能になった ▪ 今後プロダクトが増えても同じ基準で収集できる ◦ アプリケーション調査⽤の Datadog APM や Profiler を全プロダクトへ展開 ◦ Datadog 監視コスト増を抑えるための設定⾒直し 取り組んだこと
© LayerX Inc. 8 全プロダクト横断ダッシュボードを整備 • 統⼀された評価軸で1ページに集約 • リクエスト成功率を仮指標として設定 •
本番環境の変更時は必ず⾒る運⽤とした 得られた効果 • 本番変更後の異常検知が早まった • 複数プロダクトに影響する異常を検知し やすくなった Datadog を⽤いた運⽤改善
© LayerX Inc. 9 • プロダクトごとにより適切な SLI を模索する ◦ 重視したい体験を軸に、開発チームや
PdM と詳細を詰める ◦ 守るべき指標を定めることでより効率的な監視ができる • ユーザー体験への影響度に合わせた監視の整備 ◦ レイテンシやエラー率など体験に直結する値を重視 ◦ 数⽇以内の対応でよいものなどは、通知⽅法を⾒直して割り込みを減らす • パフォーマンス関連 ◦ 性能問題が発⽣した場合の調査材料を増やす (APM / Profiler の活⽤等) ◦ ⼤規模テナントや特定のユースケース単位での可視化の⼟台作り 今後の取り組み
© LayerX Inc. 10 30分のカジュアル⾯談をどなたでも申し込めます LayerX や DevOps について気になることがあればお気軽に! https://jobs.layerx.co.jp/0cc0b754363d428eaca0f2d9922c941c
LayerX Open Door やってます!
Thank you!