Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

クラシルで実践しているフルサイクルとデータ分析でのAI活用事例 / AI Engineerin...

Avatar for クラシル株式会社 クラシル株式会社
December 16, 2025
52

クラシルで実践しているフルサイクルとデータ分析でのAI活用事例 / AI Engineering Summit Tokyo 2025 (Kurashiru)

AI Engineering Summit Tokyo2025で発表しました、クラシル株式会社の登壇資料です。

Avatar for クラシル株式会社

クラシル株式会社

December 16, 2025
Tweet

Transcript

  1. 本日のアジェンダ 1. フルサイクルエンジニアリングとは? 2. PRC(Product Readiness Check)とは? 3. PRCにおけるAI活用 4.

    監視対応の難しさについて 5. 例外対応をAIで楽にする 6. AWSの運用監視をAIで楽にする 7. 最後に(まとめ)
  2. フルサイクルエンジニアリング実施前の弊社の課題 ・ 運用・保守が微妙 ・ 弊社では新たな大機能やサービス、基盤の立ち上げ時に少人数のスクラムチームを立て て開発を行う ・ 価値提供を迅速に行うために体制変更が激しかったりする ・ 基盤が完成した後はスクラムチームを解散して別スクラムに移動するなど

    ・ その基盤や機能を運用・保守するエンジニアがいなくなる ・ 障害やアラートの検知時に誰が初動対応する? ・ パフォーマンス低下したとき誰がチューニングする? -> スクラムチームと別軸でフルサイクルチームを発足
  3. フルサイクル運用チームの構築 ・ 各サービスや基盤に対して、スクラムチームとは別の運用チームを構築 ・ チーム内では、以下のような取り組みを行う ・ メトリクスの監視 ・ コストアラートの確認 ・

    例外検知時の初動対応やエスカレーション ・ PRC(Production Readiness Check)の実施 ・ 週1回の定例で報告・共有 ・ 評価制度に組み込まれており、Tierごとに責務を設計 ・ 昇格してTierが上がるとインフラ設定権限が与えられるなど裁量が増える
  4. PRC(Product Readiness Check)とは? ・ 弊社では次のような観点で評価軸を設けている(抜粋) ・ バックアップ・リストア ・ キャパシティ管理 ・

    障害対策 ・ インシデント対応 ・ ログ記録 ・ ミドルウェア・ライブラリのメンテナンス方針 ・ 監視 ・ :
  5. PRCにおけるAI活用 ・ クラシル社のAWSインフラはTerraformでコード管理されている ・ そのため、PRCで確認する項目についてはある程度コードから読み解くことができる ・ バックアップ・リストア対象は何があるか? ・ 自動スケーリングは設定されているか? ・

    デプロイパイプラインがどのように定義されているか? ・ こういった情報を整理するのに Claude Codeで対話的に聞けるのは有用 ・ 助けになるMCP ・ AWS Documentation MCP Server ・ AWS Terraform MCP Server
  6. 監視対応の難しさ ・ システム構成やドメイン知識を詳しく理解していないと何が問題なのかの把握が難しい ・ 例えば ・ 頻繁に見るエラーなんだけど詳細が分からない ・ 即時対応が都度必要? ・

    アラート鳴らないように根本対応はできないのか? ・ 急にAWSのコストが上がったが原因が分からない ・ 特定の時間になると急にRDSのメモリ使用率が跳ね上がるが何に起因しているのか 分からない
  7. 例外対応をAIで楽にする ・ Sentry MCPを導入 ・ https://docs.sentry.io/product/sentry-mcp/ ・ issue URLを取得して原因調査を補佐してもらう ・

    割と素直に原因を特定して解決してくれる ・ Sentryはエラーコード、スタックトレース、パラメーター等調査に必要な情報 をissue情報として保持しているのでAIが活用しやすい
  8. 例外対応をAIで楽にする(今後の動き) ・ そのままSentry issueをAIに食わせるだけでも一定の効果があるが、知見の積み上げが 難しい ・ そのエラーが来たら即時対応が必要なのか? ・ 暫定対応・恒久対応はどこまで進んでいるのか? ・

    Sentry issue に情報を集約させ、適切にissueを管理する ・ Sentry issue のActivityを活用し、過去の対応時のアクションを載せていく ・ Sentry issue とGitHubのPRを紐づける
  9. 例外対応をAIで楽にする(今後の動き) ・ 一部の例外に関しては原因がバラバラなのにissueが集約されるので Issue Grouping を 活用する ・ https://docs.sentry.io/concepts/data-management/event-grouping/ ・

    SentryはデフォルトだとStack Traceなどを元にしたFinger Printでissueを集約する ・ Groupingのルールは任意にカスタマイズすることができるので、独自ルールを設ける
  10. AWSの運用監視をAIで楽にする MCP 用途 AWS Cloud Watch MCP Server メトリクス異常の調査 コスト異常時にメトリクスの傾向から原因を調査できるこ

    とを期待 AWS Cost Explorer MCP Server コスト異常の原因調査 AWS CloudTrail MCP Server AWSに対する操作からメトリクス異常やコスト異常の原因 に繋がるものがないかを調査 AWS Documentation MCP Server AWSの各種サービスの最新仕様を確認
  11. AWSの監視をAIで楽にする(今後の動き) ・ 次の打ち手として、これまでの過去の事例をNotion DB化してAIに食わせることを検討 中 ・ メトリクス異常やコスト異常のアラートが起きた経緯を記録しておく ・ その時どういった対応を取ったかも記録しておく ・

    AIを使わなくとも人が読むドキュメントとして有益な情報になりそう ・ 過去事例を元に調査に必要な情報を絞り込むための対話形式のスラッシュコマンドを作 るとMCPによる調査は捗りそう
  12. AWSの監視をAIで楽にする(今後の動き) ・ 過去事例DBを作るようなことをしなくても AWS re:Inventで発表された AWS DevOps Agent を使うとこのあたりかなり改善するかも ・

    https://aws.amazon.com/jp/devops-agent/ ・ 自律性の高さが売りなようなので、どこまでを自動化してどこまでを人間がやるのか、 勘所が必要になりそう ・ 少なくともアラート等の調査工数が減らせれば大幅なコストカットにつながる ・ 調査そのものではなく、Agentの分析の質を高めることに時間を費やすという、新たな 運用の形が見えてくるかも
  13. アジリティ vs ガバナンスのトレードオフ クラシルの強み:データから最速の意思 決定をすること ・ 組織が勝つための最速の意思決定を支えるアドホッ ク分析 ・ 各チームが自由にSQLクエリを作成

    → 速く動ける しかし、アジリティ優先の結果 ・ データ品質が担保されない ・ 同じ指標でも結果が異なる → 意思決定の信頼性が低 下
  14. 1. Lightdashでdbtを中心としたデータ管理を実現 dbtネイティブなBIツールで実現 ・ セマンティクス管理: メトリクス定義 (売上、ユーザー数など)をdbtで一元 管理 ・ セマンティクス

    = ビジネス用語と データの紐付け ・ メタデータ管理: dbtのドキュメント・ テストを自動反映 ・ Write Back to dbt: アドホッククエリ をdbtモデルへ自動変換
  15. 2. Tier定義による段階的なデータガバナンス Tier 用途 責任者 品質要件 メタデータ TTL AI Tier

    1 監査・公表 DE 全テスト 完全 永続 ✓ Tier 2 経営KPI DO 全テスト 完全 永続 ✓ Tier 3 部門KPI DO, Dev 基本テスト 完全 永続 ✓ Tier 4 アドホック DO, Dev dbt化 最低限 90日 ✗ Tier 5 個人試行 DO, Dev SQL 不要 30日 ✗ 補足: DE=データエンジニア、DO=データオーナー、Dev=開発者 Tier5でアドホックな分析を担保しつつ、TTLを設けて重要なデータからTierの昇格を必須と していくデザイン
  16. まとめ ・ データライフサイクルを最速で回すための技術選定とDataOpsの実装により、データの 資産価値を高める取り組みが組織文化になりはじめた ・ データオーナーがデータの品質やビジネスメタデータを育てることで活用の裾野が 広がってきた ・ AI利活用はデータマネジメントをどう組織として実践するか ・

    我々はデータエンジニアリングの民主化が組織文化になるように解く ・ いつの間にかAI Readyなデータ利活用ができる状態まで到達 ・ データのアジリティだけでなく、適切なタイミングでの品質管理などのガバナンス を両立しながら