Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

バクラクにおける可観測性向上の取り組み

yuu26
October 30, 2024

 バクラクにおける可観測性向上の取り組み

SRE NEXT 2024をふりかえって 〜学びをもとにした取り組み事例紹介〜
https://layerx.connpass.com/event/328643/

yuu26

October 30, 2024
Tweet

More Decks by yuu26

Other Decks in Technology

Transcript

  1. © LayerX Inc. 2 株式会社LayerX バクラク事業部 Platform Engineering 部 DevOps

    グループ   m_on_yu   yuu26jp 職歴 SIer インフラエンジニア Web サービス SRE x 3社 LayerX アカウント 上原 佑介 ⾃⼰紹介
  2. ⽬次 Agenda • バクラクが抱えていた可観測性の課題 • SRE NEXT 2024 で得られたこと •

    取り組んだこと • Datadog を⽤いた運⽤改善 • 今後の取り組み
  3. © LayerX Inc. 5 • ⽇々開発が進むプロダクトが多数あり、プロダクトの負荷傾向も常に変化している • 個別のインフラ監視等はできているが、最終的なユーザー影響度を把握しづらい • 積み上げてきたモニターの総量が多く、ノイズとなっているアラートがある

    これらの状況を改善するため、 DevOps として「サービスインフラの可観測性を⾼め、改善する」という⽬標を⽴てた 解決策のヒントを得るために SRE NEXT 2024 へ参加 バクラクが抱えていた可観測性の課題
  4. © LayerX Inc. 6 可観測性や運⽤改善に関するセッションで印象に残った部分 • SLOの理解を深めて、ユーザーエクスペリエンスを向上する⽅法 https://sre-next.dev/2024/schedule/#sp008 ◦ すべての値がいい

    SLI になるわけではない ◦ いい SLI とはユーザー体験に紐づいているもの (レスポンス成功率やレイテンシ等) • Enabling Client-side SLO https://sre-next.dev/2024/schedule/#jp005 ◦ 現場のエンジニアに寄り添ったアラートチューニング ◦ ⽂化醸成のためにダッシュボードを作成して定期的に確認する場を設けた これらのセッションから得たヒントを元に運⽤改善へ SRE NEXT 2024 で得られたこと
  5. © LayerX Inc. 7 • 取得できている情報の棚卸し ◦ プロダクトごとに開発時期やアーキテクチャが異なり、取得できている情報がバラバラ ◦ 情報が取れているように⾒えても、計測範囲や単位

    (秒やミリ秒) が揃っていない • プラットフォームの改善 ◦ Enabling チームによるログフォーマットの統⼀ ▪ レスポンスコードや処理時間を全プロダクト同じ基準で収集可能になった ▪ 今後プロダクトが増えても同じ基準で収集できる ◦ アプリケーション調査⽤の Datadog APM や Profiler を全プロダクトへ展開 ◦ Datadog 監視コスト増を抑えるための設定⾒直し 取り組んだこと
  6. © LayerX Inc. 8 全プロダクト横断ダッシュボードを整備 • 統⼀された評価軸で1ページに集約 • リクエスト成功率を仮指標として設定 •

    本番環境の変更時は必ず⾒る運⽤とした 得られた効果 • 本番変更後の異常検知が早まった • 複数プロダクトに影響する異常を検知し やすくなった Datadog を⽤いた運⽤改善
  7. © LayerX Inc. 9 • プロダクトごとにより適切な SLI を模索する ◦ 重視したい体験を軸に、開発チームや

    PdM と詳細を詰める ◦ 守るべき指標を定めることでより効率的な監視ができる • ユーザー体験への影響度に合わせた監視の整備 ◦ レイテンシやエラー率など体験に直結する値を重視 ◦ 数⽇以内の対応でよいものなどは、通知⽅法を⾒直して割り込みを減らす • パフォーマンス関連 ◦ 性能問題が発⽣した場合の調査材料を増やす (APM / Profiler の活⽤等) ◦ ⼤規模テナントや特定のユースケース単位での可視化の⼟台作り 今後の取り組み