Upgrade to Pro — share decks privately, control downloads, hide ads and more …

進化するBits AI SREと私と組織

進化するBits AI SREと私と組織

Avatar for 株式会社ヌーラボ

株式会社ヌーラボ PRO

March 13, 2026
Tweet

More Decks by 株式会社ヌーラボ

Other Decks in Technology

Transcript

  1. ⼆橋 宣友 • Principal Engineer / AWS Alliance Lead @株式会社ヌーラボ

    (8年) • 技術顧問 @ホライズンテクノロジー株式会社 (2年) • SRE @合同会社Ignission (3ヶ⽉) • SRE @XXXXXX (from 3⽇後) • 2022 & 2023 APN AWS Top Engineers (Software) • 2023 Japan AWS All Certifications Engineers @futahashi 2
  2. • ヌーラボや副業先で Datadog 活⽤推進 • JDDUG 福岡運営・創設メンバー • Datadog Live

    Tokyo 2025 (6⽉) 登壇 • Datadog Live Tokyo 2025 (12⽉) 登壇 • Datadog Summit (10⽉) JDDUG ブース出展 • Datadog Japan合同会社 出社 計6⽇ Datadog と私 3
  3. 4

  4. 拡⼤する責任と変数 - 複雑系システムの加速 8 歴史:20年+ Cacoo ユーザー:400万+ Backlog 有料契約:15000+ ホスト:300+

    コンテナ:1500+ サービス:50+ エンジニアチーム:20+ リポジトリ:300+ AWSアカウント:35+ 6年で社員数2倍 多様な技術スタック Scala / Go / Kotlin etc. プロダクト間連携 IPO 全体把握と予測が困難な中、信頼性を⾼める必要がある
  5. You might expect Google to try to build 100% reliable

    services̶ones that never fail. It turns out that past a certain point, however, increasing reliability is worse for a service (and its users) rather than better! Extreme reliability comes at a cost: maximizing stability limits how fast new features can be developed and how quickly products can be delivered to users, and dramatically increases their cost, which in turn reduces the numbers of features a team can afford to offer. Further, users typically donʼt notice the difference between high reliability and extreme reliability in a service, because the user experience is dominated by less reliable components like the cellular network or the device they are working with. Put simply, a user on a 99% reliable smartphone cannot tell the difference between 99.99% and 99.999% service reliability! With this in mind, rather than simply maximizing uptime, Site Reliability Engineering seeks to balance the risk of unavailability with the goals of rapid innovation and efficient service operations, so that usersʼ overall happiness̶with features, service, and performance̶is optimized. 信頼性100%は多くのケースで正解ではない 9 引⽤: https://sre.google/sre-book/embracing-risk/
  6. You might expect Google to try to build 100% reliable

    services̶ones that never fail. It turns out that past a certain point, however, increasing reliability is worse for a service (and its users) rather than better! Extreme reliability comes at a cost: maximizing stability limits how fast new features can be developed and how quickly products can be delivered to users, and dramatically increases their cost, which in turn reduces the numbers of features a team can afford to offer. Further, users typically donʼt notice the difference between high reliability and extreme reliability in a service, because the user experience is dominated by less reliable components like the cellular network or the device they are working with. Put simply, a user on a 99% reliable smartphone cannot tell the difference between 99.99% and 99.999% service reliability! With this in mind, rather than simply maximizing uptime, Site Reliability Engineering seeks to balance the risk of unavailability with the goals of rapid innovation and efficient service operations, so that usersʼ overall happiness̶with features, service, and performance̶is optimized. 信頼性100%は多くのケースで正解ではない 10 引⽤: https://sre.google/sre-book/embracing-risk/ 意訳 ①過度な信頼性向上 = コスト増加 + 開発速度低下 + ユーザー体験ほぼ変化無 = 価値提供に繋がらない ②SRE = 信頼性 × 進化速度 × コスト効率 = バランスで全体価値を⾼めよ
  7. ⽝の⼿も借りたい状況 😇 13 • ヌーラボの全サービスを⽀える共通基盤 • 組織 / ユーザに関するセンシティブな情報を持つ •

    認証認可 / 課⾦システム / セキュリティ強化機能 責任重⼤なシステム 1⼈SRE 異動 & 育休明けの負荷 • 担当の1つであるProductがサービス終了 • 技術スタックの変化 / ドメイン知識不⾜ • 育児と家事が⼤変 • 3⼈卒業したチームへ異動し今1⼈ぼっち • やさしい他チームと助け合いながら働いてます (Platform Team / 他Product SRE / 開発者 etc.)
  8. DASH 2025 で Bits AI SRE を知る 🗽 14 Bits

    さんすごいな (実⽤はいつかな)
  9. 某 Datadog CSM による Bits AI SRE 依存の循環 🔄 15

    トライアルあります チョットだけなら Bits さんすごいな 忙しくて触れない SREが欲しい Bits AI SRE 30⽇間に渡るトライアルと推しでAIOpsを体感 AIOps が⾼まる
  10. 2. 低優先度のアラートのトリアージ (1/1) • 急がないけど無視できない多くのアラートが⽉10件以上 20 アプリがデプロイされない 5xx error ちょっと出た

    助けて Slow Query多いな 社内ツールにアクセス できない Pod Restart繰り返してる 突然壊れた CPU使⽤率⾼いですね 体感遅くない? 1件平均30分の対応を要する 即時着⼿ができない/複数⼈拘束する場合がよくある
  11. 余談 - 某 Datadog SE との会話 25 Bitsだけで調査完了する機会が かなり増えました AWS

    ConsoleとTerminal すら開かないんです futahashi さんすごいな 1年前の私なら絶対に信じられない世界 えぐすぎ
  12. • モニターはどれをトリガーに調査を実⾏するか判断を伴う • APM latencyではコンテキストを付与できない • モニター未設定やAPM latencyで検知できない事象は調査でき ない •

    ⾮サポートのデータソースは調査に活⽤できない しかし現状のBitsに満⾜して良いのか? 26 Bitsの利⽤の敷居をさげる / 守備範囲を広げる必要がある
  13. Bitsの改善と普及に向けて某 Datadog SSEへお願い 「Bits AI SRE」に対するさらなる期待 「Bits AI SRE」はチューニングなしでも⼗分な効果を発揮しますが、将来的 にはより少ない労⼒でより⼤きな成果を実現できるようになることを期待し

    ています。 具体的には「Bits AI SRE」は調査のトリガーとして、事前にモニ ターを設定しておく必要があり、より深い洞察を得るためにはそのモニター にコンテキストを含める必要があります。将来的には異常を⾃律的に認識 し、Datadog上のあらゆる情報に基づいてコンテキストを活⽤できるよう になることを期待しています。 27 引⽤: https://www.datadoghq.com/ja/blog/datadog-live-tokyo-2025-recap/
  14. Bitsの改善と普及に向けて某 Datadog SSEへお願い 「Bits AI SRE」に対するさらなる期待 「Bits AI SRE」はチューニングなしでも⼗分な効果を発揮しますが、将来的 にはより少ない労⼒でより⼤きな成果を実現できるようになることを期待し

    ています。 具体的には「Bits AI SRE」は調査のトリガーとして、事前にモニ ターを設定しておく必要があり、より深い洞察を得るためにはそのモニター にコンテキストを含める必要があります。将来的には異常を⾃律的に認識 し、Datadog上のあらゆる情報に基づいてコンテキストを活⽤できるように なることを期待しています。 28 引⽤: https://www.datadoghq.com/ja/blog/datadog-live-tokyo-2025-recap/ 意訳 Monitorなくても調べて欲しい Datadogの全情報理解して欲しい 私をもっと楽にして欲しい www futahashi さんすごいな
  15. • Metrics • APM traces • Logs • Dashboards •

    Events • Change Tracking Support対象増えました 🔥 29 リッチなコンテキスト活⽤して調査の幅と深さを強化 引⽤: https://docs.datadoghq.com/bits_ai/bits_ai_sre/investigate_issues/ • Source code (GitHub only) • Watchdog • Real User Monitoring • Network Path • Database Monitoring • Continuous Profiler
  16. 熱盛のPreviewの機能たち 🔥 • Generate code fixes: Bitsが根本原因修正PRを作る • Investigate Synthetics

    API: Synthetics Monitor サポート • Recommended Actions: 調査結果に基づくトリアージ⾏動 • Bits.md: Bitsへ調査共通のコンテキストを渡せる • Start investigations from APM latency graphs & APM Watchdog stories: APM latencyとWatchdogからトリガー • Prompt-based investigations: Monitorなしでトリガー 30 引⽤: https://www.datadoghq.com/product-preview/bits-ai-sre-pilot-features/
  17. AI関連機能の⽐較と使い分け 37 Bits AI SRE Bits Assistant Datadog MCP Pup

    CLI 主な役割 自律型SRE 対話型汎用アシスト 外部AIとの接続口 AI対応CLI 主な用途 インシデント対応 データ検索、洞察、一 般的な質問 外部LLMから Datadogの利用 人やAIからの操作 やスクリプト利用 UI Datadog特定画面 / Slack / (モバイル) Datadog全画面 / Slack / (モバイル) KiroやClaudeなど の外部LLM UI ターミナル / スクリ プト 主な利用者 SRE / 運用 全人類 開発 / SRE / 運用 AI / SRE / 運用 みんなちがってみんないい!!
  18. Bitsがもたらしたもの 🤲 39 Bitsは単なる⾃動化ではなく根本的に世界を変⾰する • インシデント対応の再考 ‒ インシデント対応を⾼速化 / ⾃律化

    / 資産化 ➡➡➡ 根本的な変化 • SRE活動の本質に注⼒できる ‒ “いま”を守るBitsと”みらい”を守る私 ‒ Datadogへデータ集約 / コンテキスト整備 / 機能活⽤ ➡➡➡ 可観測性向上 • 組織でのインシデント対応⼒の強化 ‒ 私がBitsを育てる時、Bitsもまた私を育てるのだ ‒ AIと⼈との協働 / 調査の可視化 / 記憶 ➡➡➡ 持続的強化ループ
  19. Bits をチームメンバーの⼀員として⼤切に扱う 🫶 • Bitsの布教活動: Bitsの機能紹介と成果共有 • ドッグランの整備: DatadogのPracticeに基づく活⽤と展開 •

    Bitsの訓練: 既知のアラートや障害注⼊でBitsを育てる • Bitsのごはん代の確保: ガードレールの設定とコストモニター 41 デキる先輩としてサーバントリーダーシップを発揮すべし 私ももっとがんばります🏋 futahashi さんすごいな
  20. • Unified Service Tagging を設定する • コンテキストを伝播して相関付ける • 調査に必要なDatadogの機能有効化とデータ注⼊をする •

    調査に有効なDashboardを作成する • Monitor Messageにテレメトリリンクを含める • Feedback / Memory で学習させる • Slack Integration を設定する Bits をつよくする Tips 💡 42 参考: https://docs.datadoghq.com/bits_ai/bits_ai_sre/knowledge_sources ⼈が働きやすい環境 = ⽝が働きやすい環境
  21. Datadog の AIOps で新世界へ • Bitsでインシデント対応の世界が変わる ‒ 超⽝的な調査⼒と表現⼒を持ち⼈のように働きながら成⻑する相棒 • Bitsのためのドッグラン整備がSREの使命

    ‒ 最⾼の相棒に最⾼のDatadog環境を提供しよう • Bits含めたDatadogの進化の早さと強さの安⼼感 ‒ Datadogを使い続けるだけで⼀段上の世界に到達できる 44 Bitsと共に成⻑と変⾰する組織へ Datadog さんすごいな