Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
バクラクにおける可観測性向上の取り組み
Search
yuu26
October 30, 2024
Technology
4
1.8k
バクラクにおける可観測性向上の取り組み
SRE NEXT 2024をふりかえって 〜学びをもとにした取り組み事例紹介〜
https://layerx.connpass.com/event/328643/
yuu26
October 30, 2024
Tweet
Share
More Decks by yuu26
See All by yuu26
Datadog 関数クイズ (初級編)
yuu26
0
65
AWS アーキテクチャクイズ
yuu26
3
1.2k
EMになって半年でやったこと
yuu26
1
2.8k
ローカル開発環境をAWSへ移行して爆速にした
yuu26
14
11k
AWS Systems Manager で実現する SSH レスでセキュアなクラウド運用
yuu26
2
4.6k
Other Decks in Technology
See All in Technology
PostgreSQL 18 cancel request key長の変更とRailsへの関連
yahonda
0
120
ひとり情シスなCTOがLLMと始めるオペレーション最適化 / CTO's LLM-Powered Ops
yamitzky
0
420
Windows 11 で AWS Documentation MCP Server 接続実践/practical-aws-documentation-mcp-server-connection-on-windows-11
emiki
0
930
_第3回__AIxIoTビジネス共創ラボ紹介資料_20250617.pdf
iotcomjpadmin
0
150
20250625 Snowflake Summit 2025活用事例 レポート / Nowcast Snowflake Summit 2025 Case Study Report
kkuv
1
300
Clineを含めたAIエージェントを 大規模組織に導入し、投資対効果を考える / Introducing AI agents into your organization
i35_267
4
1.5k
Navigation3でViewModelにデータを渡す方法
mikanichinose
0
220
プロダクトエンジニアリング組織への歩み、その現在地 / Our journey to becoming a product engineering organization
hiro_torii
0
130
5min GuardDuty Extended Threat Detection EKS
takakuni
0
130
AWS CDK 実践的アプローチ N選 / aws-cdk-practical-approaches
gotok365
6
710
AIエージェント最前線! Amazon Bedrock、Amazon Q、そしてMCPを使いこなそう
minorun365
PRO
13
4.9k
より良いプロダクトの開発を目指して - 情報を中心としたプロダクト開発 #phpcon #phpcon2025
bengo4com
1
3.1k
Featured
See All Featured
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.9k
Code Reviewing Like a Champion
maltzj
524
40k
Producing Creativity
orderedlist
PRO
346
40k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
930
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
60k
The Cult of Friendly URLs
andyhume
79
6.5k
Building an army of robots
kneath
306
45k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Writing Fast Ruby
sferik
628
61k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
124
52k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.3k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
Transcript
© LayerX Inc. バクラクにおける可観測性向上の取り組み 2024/10/30 SRE NEXT 2024をふりかえって 〜学びをもとにした取り組み事例紹介〜
© LayerX Inc. 2 株式会社LayerX バクラク事業部 Platform Engineering 部 DevOps
グループ m_on_yu yuu26jp 職歴 SIer インフラエンジニア Web サービス SRE x 3社 LayerX アカウント 上原 佑介 ⾃⼰紹介
3 © LayerX Inc. 「すべての経済活動を、デジタル化する。」をミッションに掲げ、 法⼈⽀出管理サービス「バクラク」や企業内業務のデジタル化を⽀援するサービスを提供しています。 事業紹介 バクラク事業 企業活動のインフラとなる法⼈⽀ 出管理(BSM)SaaSを開発‧提供
Fintech事業 ソフトウェアを駆使したアセットマネジ メント‧証券事業を合弁会社にて展開 AI‧LLM事業 ⽂書処理を中⼼とした、LLMの活⽤によ るプロセスのリデザイン
⽬次 Agenda • バクラクが抱えていた可観測性の課題 • SRE NEXT 2024 で得られたこと •
取り組んだこと • Datadog を⽤いた運⽤改善 • 今後の取り組み
© LayerX Inc. 5 • ⽇々開発が進むプロダクトが多数あり、プロダクトの負荷傾向も常に変化している • 個別のインフラ監視等はできているが、最終的なユーザー影響度を把握しづらい • 積み上げてきたモニターの総量が多く、ノイズとなっているアラートがある
これらの状況を改善するため、 DevOps として「サービスインフラの可観測性を⾼め、改善する」という⽬標を⽴てた 解決策のヒントを得るために SRE NEXT 2024 へ参加 バクラクが抱えていた可観測性の課題
© LayerX Inc. 6 可観測性や運⽤改善に関するセッションで印象に残った部分 • SLOの理解を深めて、ユーザーエクスペリエンスを向上する⽅法 https://sre-next.dev/2024/schedule/#sp008 ◦ すべての値がいい
SLI になるわけではない ◦ いい SLI とはユーザー体験に紐づいているもの (レスポンス成功率やレイテンシ等) • Enabling Client-side SLO https://sre-next.dev/2024/schedule/#jp005 ◦ 現場のエンジニアに寄り添ったアラートチューニング ◦ ⽂化醸成のためにダッシュボードを作成して定期的に確認する場を設けた これらのセッションから得たヒントを元に運⽤改善へ SRE NEXT 2024 で得られたこと
© LayerX Inc. 7 • 取得できている情報の棚卸し ◦ プロダクトごとに開発時期やアーキテクチャが異なり、取得できている情報がバラバラ ◦ 情報が取れているように⾒えても、計測範囲や単位
(秒やミリ秒) が揃っていない • プラットフォームの改善 ◦ Enabling チームによるログフォーマットの統⼀ ▪ レスポンスコードや処理時間を全プロダクト同じ基準で収集可能になった ▪ 今後プロダクトが増えても同じ基準で収集できる ◦ アプリケーション調査⽤の Datadog APM や Profiler を全プロダクトへ展開 ◦ Datadog 監視コスト増を抑えるための設定⾒直し 取り組んだこと
© LayerX Inc. 8 全プロダクト横断ダッシュボードを整備 • 統⼀された評価軸で1ページに集約 • リクエスト成功率を仮指標として設定 •
本番環境の変更時は必ず⾒る運⽤とした 得られた効果 • 本番変更後の異常検知が早まった • 複数プロダクトに影響する異常を検知し やすくなった Datadog を⽤いた運⽤改善
© LayerX Inc. 9 • プロダクトごとにより適切な SLI を模索する ◦ 重視したい体験を軸に、開発チームや
PdM と詳細を詰める ◦ 守るべき指標を定めることでより効率的な監視ができる • ユーザー体験への影響度に合わせた監視の整備 ◦ レイテンシやエラー率など体験に直結する値を重視 ◦ 数⽇以内の対応でよいものなどは、通知⽅法を⾒直して割り込みを減らす • パフォーマンス関連 ◦ 性能問題が発⽣した場合の調査材料を増やす (APM / Profiler の活⽤等) ◦ ⼤規模テナントや特定のユースケース単位での可視化の⼟台作り 今後の取り組み
© LayerX Inc. 10 30分のカジュアル⾯談をどなたでも申し込めます LayerX や DevOps について気になることがあればお気軽に! https://jobs.layerx.co.jp/0cc0b754363d428eaca0f2d9922c941c
LayerX Open Door やってます!
Thank you!