Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成AIで日々のエラー調査を進めたい

Avatar for aboy aboy
June 13, 2025

 生成AIで日々のエラー調査を進めたい

Avatar for aboy

aboy

June 13, 2025
Tweet

More Decks by aboy

Other Decks in Programming

Transcript

  1. 運用体制 4 - 2012年創立。歴史あるサービス (システム)らの開発・運用。 - Webエンジニア 9名、インフラエンジニア 1名、(ほか割愛🙏)。 -

    SRE専門部隊はいない。開発と運用は分かれていない。 - 特にアプリケーションの監視は Webエンジニアが行う。 - ↓継続中 https://speakerdeck.com/yuyaabo/minnateerajian-shi-surusrexi-hui-noxiao-guo-yurusremian-qiang-hui-1
  2. アプリケーションエラー監視の現状と課題 5 - 現在の運用 - 異常系エラー:プロジェクトごとのルールで新規、再発、頻発で Slackに通知。 - 要即対応 -

    準正常系エラー:エラーごとのルールで定量監視(例 : 10回/1h)でSlackに通知。 - 要即対応 - そのSlackチャンネルを見てエラー対応 → GitHub Issueに記録 → 共有。 - 現在の課題 - 通知への反応・調査はできているが、解決の進みが遅い(オオカミ少年化していないが実 質ノイジーなものも多い)。
  3. 12 新規エンドポイントのレイテンシ予測 Datadog API から既存エンドポイントのレイテンシを取得してリスト化したもの + 新設するエンドポイン トの仕様を Devin に渡して「p95レイテンシを推測してください」と指示。

    - 類似エンドポイントがあればそのレイテンシをもとに推測するなど、根拠を示しそれっぽい答えを 出す。 - DBのレコード数に左右されるような仕様や既存処理の組み合わせではないものは振れ幅 が大きくなる。 - この段階で自社基準を大幅に超えるようなら仕様や実装に工夫が必要かもなーとなるので良い 壁打ち相手に。
  4. 14 エラー調査・解決の自動化 Sentry bot が GitHub Issue を作成したときと、 GitHub Issue

    に `devin-sre` ラベルを付けたときに GitHub Actions 経由で Devin に調査・解決指示。
  5. 16 エラー調査・解決の自動化 「よくやる作業で対応方法も 3パターンくらいでだいたい決まってる」みたいな類のものについては手順 の文書化。 - 調査は済んでいて対応方法も分かっているイシューの対応をラクにする意図。 - Devin では

    Playbooks というプロンプトを流用できる機能を活用。 - しかし、特定のAIツールに限定しない情報についてはリポジトリ内に置き、どの AIツールか らも参照できるようにしたほうが良さそう。 - 弊社ではエンジニア全員 GitHub Copilot を使っているのでカスタムインストラクションか? → 最近 Cursor のトライアルも始まったので分からないがとにかくリポジトリに置く。 - 最初は自分で書いていたが、この類のものは参考となる PullRequest があるので、それを材料 にAIツールに文書化させる方向へ。 - 人間が書くには大変な質の文書を書いてくれるのと、今後どうせ AIに更新させていくため。
  6. 18 まとめと感想 - Webエンジニア視点で、日々の運用における生成 AIの活用事例を3つ紹介。 - パフォーマンス改善、レイテンシ予測、エラー調査・解決の自動化。 - トイル削減のためのコード化は生成 AIで進めやすくなった。

    - 前述した GitHub Actions も Devin が実装。 - AIツールが調査・開発しやすくするための環境整備も生成 AIで進めやすくなった(というか必須に なった)。 - APMなどの運用におけるデータを AIツールにいかに渡すか。 - 紹介したエラー調査・解決自動化の例では、 Devin と Sentry は直接繋いでない (Issueを情報源にしている )ため、より細かい1次情報にアクセスできるようにする改 善の余地あり。 - 進めるぞい