Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
バクラクにおける可観測性向上の取り組み
Search
yuu26
October 30, 2024
Technology
3
1.1k
バクラクにおける可観測性向上の取り組み
SRE NEXT 2024をふりかえって 〜学びをもとにした取り組み事例紹介〜
https://layerx.connpass.com/event/328643/
yuu26
October 30, 2024
Tweet
Share
More Decks by yuu26
See All by yuu26
AWS アーキテクチャクイズ
yuu26
2
970
EMになって半年でやったこと
yuu26
0
2.7k
ローカル開発環境をAWSへ移行して爆速にした
yuu26
14
10k
AWS Systems Manager で実現する SSH レスでセキュアなクラウド運用
yuu26
2
4.4k
Other Decks in Technology
See All in Technology
Remix SPAモードのファイルベースルーティングで進めるフロントエンド構築
ryochike
0
150
sre本読んだ感想
pisakun
0
210
深層学習のリペア技術の最新動向と実際 / DNN Repair Techniques for AI Performance Alignment for Safety Requirements
ishikawafyu
0
420
asumikamというカンファレンスオーガナイザの凄さを語る / The Brilliance of Asumikam
tomzoh
1
290
AWS re:Invent 2024登壇資料(GBL206-JA: Unleashing the power of generative AI on AWS for your business)
minorun365
PRO
4
180
検証と資産化を形にするプロダクト組織へ/tapple_pmconf2024
corin8823
1
8k
データカタログを自作したけど 運用しなかった話@Findy Lunch LT「データカタログ 事例から学ぶメタデータ管理の実態」
ryo_suzuki
2
660
Raspberry Pi 秋の新製品をチェックしてみよう / 20231202-rpi-jam-tokyo
akkiesoft
0
360
クラウドネイティブへの小さな一歩!既存VMからコンテナまで、KubeVirtが実現する『無理しないペースの移行』とは!?
tsukaman
0
110
「品質とスピードはトレード・オンできる」に向き合い続けた2年半を振り返る / Quality and speed can be traded on.
mii3king
0
580
12/4(水)のBedrockアプデ速報(re:Invent 2024 Daily re:Cap #3 with AWS Heroes)
minorun365
PRO
2
390
Advancing the 3D Geospatial Ecosystem in Japan via Global Collaborations
osgeojp
0
140
Featured
See All Featured
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
770
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
26
1.8k
Bash Introduction
62gerente
608
210k
Automating Front-end Workflow
addyosmani
1366
200k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.6k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.2k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
27
880
The World Runs on Bad Software
bkeepers
PRO
65
11k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.4k
Unsuck your backbone
ammeep
669
57k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
2
240
Transcript
© LayerX Inc. バクラクにおける可観測性向上の取り組み 2024/10/30 SRE NEXT 2024をふりかえって 〜学びをもとにした取り組み事例紹介〜
© LayerX Inc. 2 株式会社LayerX バクラク事業部 Platform Engineering 部 DevOps
グループ m_on_yu yuu26jp 職歴 SIer インフラエンジニア Web サービス SRE x 3社 LayerX アカウント 上原 佑介 ⾃⼰紹介
3 © LayerX Inc. 「すべての経済活動を、デジタル化する。」をミッションに掲げ、 法⼈⽀出管理サービス「バクラク」や企業内業務のデジタル化を⽀援するサービスを提供しています。 事業紹介 バクラク事業 企業活動のインフラとなる法⼈⽀ 出管理(BSM)SaaSを開発‧提供
Fintech事業 ソフトウェアを駆使したアセットマネジ メント‧証券事業を合弁会社にて展開 AI‧LLM事業 ⽂書処理を中⼼とした、LLMの活⽤によ るプロセスのリデザイン
⽬次 Agenda • バクラクが抱えていた可観測性の課題 • SRE NEXT 2024 で得られたこと •
取り組んだこと • Datadog を⽤いた運⽤改善 • 今後の取り組み
© LayerX Inc. 5 • ⽇々開発が進むプロダクトが多数あり、プロダクトの負荷傾向も常に変化している • 個別のインフラ監視等はできているが、最終的なユーザー影響度を把握しづらい • 積み上げてきたモニターの総量が多く、ノイズとなっているアラートがある
これらの状況を改善するため、 DevOps として「サービスインフラの可観測性を⾼め、改善する」という⽬標を⽴てた 解決策のヒントを得るために SRE NEXT 2024 へ参加 バクラクが抱えていた可観測性の課題
© LayerX Inc. 6 可観測性や運⽤改善に関するセッションで印象に残った部分 • SLOの理解を深めて、ユーザーエクスペリエンスを向上する⽅法 https://sre-next.dev/2024/schedule/#sp008 ◦ すべての値がいい
SLI になるわけではない ◦ いい SLI とはユーザー体験に紐づいているもの (レスポンス成功率やレイテンシ等) • Enabling Client-side SLO https://sre-next.dev/2024/schedule/#jp005 ◦ 現場のエンジニアに寄り添ったアラートチューニング ◦ ⽂化醸成のためにダッシュボードを作成して定期的に確認する場を設けた これらのセッションから得たヒントを元に運⽤改善へ SRE NEXT 2024 で得られたこと
© LayerX Inc. 7 • 取得できている情報の棚卸し ◦ プロダクトごとに開発時期やアーキテクチャが異なり、取得できている情報がバラバラ ◦ 情報が取れているように⾒えても、計測範囲や単位
(秒やミリ秒) が揃っていない • プラットフォームの改善 ◦ Enabling チームによるログフォーマットの統⼀ ▪ レスポンスコードや処理時間を全プロダクト同じ基準で収集可能になった ▪ 今後プロダクトが増えても同じ基準で収集できる ◦ アプリケーション調査⽤の Datadog APM や Profiler を全プロダクトへ展開 ◦ Datadog 監視コスト増を抑えるための設定⾒直し 取り組んだこと
© LayerX Inc. 8 全プロダクト横断ダッシュボードを整備 • 統⼀された評価軸で1ページに集約 • リクエスト成功率を仮指標として設定 •
本番環境の変更時は必ず⾒る運⽤とした 得られた効果 • 本番変更後の異常検知が早まった • 複数プロダクトに影響する異常を検知し やすくなった Datadog を⽤いた運⽤改善
© LayerX Inc. 9 • プロダクトごとにより適切な SLI を模索する ◦ 重視したい体験を軸に、開発チームや
PdM と詳細を詰める ◦ 守るべき指標を定めることでより効率的な監視ができる • ユーザー体験への影響度に合わせた監視の整備 ◦ レイテンシやエラー率など体験に直結する値を重視 ◦ 数⽇以内の対応でよいものなどは、通知⽅法を⾒直して割り込みを減らす • パフォーマンス関連 ◦ 性能問題が発⽣した場合の調査材料を増やす (APM / Profiler の活⽤等) ◦ ⼤規模テナントや特定のユースケース単位での可視化の⼟台作り 今後の取り組み
© LayerX Inc. 10 30分のカジュアル⾯談をどなたでも申し込めます LayerX や DevOps について気になることがあればお気軽に! https://jobs.layerx.co.jp/0cc0b754363d428eaca0f2d9922c941c
LayerX Open Door やってます!
Thank you!