Upgrade to Pro — share decks privately, control downloads, hide ads and more …

kintone開発組織のDevOpsへの移り変わりと実践

 kintone開発組織のDevOpsへの移り変わりと実践

JJUG CCC 2025 Springで発表した資料です。
https://ccc2025spring.java-users.jp/

Avatar for Shin'ya Ueoka

Shin'ya Ueoka

June 06, 2025

More Decks by Shin'ya Ueoka

Other Decks in Technology

Transcript

  1. サイボウズという会社 サイボウズの歩み(決算報告から抜粋) クラウドビジネス転換 kintoneをリリース パートナービジネス開始 Garoonリリース メールワイズリリース kintone成長 1997 2002-2003

    2011 2017- 2022 創業 サイボウズ Office リリース 創業期 販売網開拓期・M&A期 クラウド転換期 kintone成長期 kintone 連結売上高 100億突破 kintone開発組織のDevOpsへの移り変わりと実践 8
  2. サイボウズのクラウドサービスの運用 課題1: 運用難易度の向上。システム規模の拡大によって、運用チームの認知負荷の向上や、オンボーディ ングの課題が顕著に。 • インフラ、VM基盤、L7LB、MySQLなどを運用する知識が要求される。 • 異なる技術スタックを採用(Javaアプリケーション&Jettyサーバー、PHP&CGI、等)した製品の運用。 課題2: 製品の開発チームと運用チームが、組織構造上の距離がある。

    • 本番環境のオペレーション実施は製品開発チームはできない。メトリクスの追加や運用ツールの導入など の運用改善は依頼ベース。 • 運用業務が開発プロセスに組み込まれていない。開発チームが運用環境からフィードバックを得られる動 機の減少。 運用体制の課題 kintone開発組織のDevOpsへの移り変わりと実践 12
  3. 運用できる開発組織に 製品開発チームを運用できる開発組織にするために、「仕組み」と「体制」の二軸で考える。 • 「仕組み」 ... 運用容易性を担保するための技術的アプローチ。モニタリングやアラート。 • 「体制」 ... 運用を実行可能にするための人やプロセスの設計。

    製品開発チームと今の運用チームから人を集めて、以下の狙いを持って部署横断 (本部横断) のプロジェ クトを発足。 • 今までの運用プラクティスのスキルトランスファー。 • 開発チームと運用チームの両者の業務を円滑に変更できる。 • 他のマネージャーからのスポンサーシップを得やすい やったこと kintone開発組織のDevOpsへの移り変わりと実践 17
  4. 運用できる開発組織に 障害対応の教育や訓練には様々なやり方がある。 • 関係者全員を含めた訓練 • 対応手順の確認のためのドリル • 実際に障害を起こす訓練 • 障害対応シナリオのロールプレイ

    障害対応を始めて行うメンバーがほとんどだったので、障害対応シナリオのロールプレイを実施。 取り組み7 | 障害対応ロールプレイ(1/2) kintone開発組織のDevOpsへの移り変わりと実践 25
  5. 運用できる開発組織に ロールプレイは事前に準備した障害シナリオに則って障害対応を実施。 2つの役割に分かれて実施。 • ナビゲーター: ロールプレイの案内役。シナリオの読み上げやインシデント発生状況を伝える。 • 対応者: ロールプレイのシナリオに沿って障害対応を行う。 取り組み7

    | 障害対応ロールプレイ(2/2) 障害が発生しました。PagerDuty確認してSlackで応答してください。 (PagerDutyでAcknowledge、Slackで返答) 障害対応手順に従って対応を開始ます。まずはGrafanaでメトリクスを確認 してSlackで観測報告を報告してださい。 (Slack「本番環境でエラー率が上昇してます」) 本番環境でお客様影響があります。社内連絡と社外告知の準備を進めてくだ さい ナビゲーター 対応者B ナビゲーター ナビゲーター 対応者A kintone開発組織のDevOpsへの移り変わりと実践 26
  6. kintone開発組織のDevOpsへの移り変わりと実践 まとめ オンコール開始前に運用を始める人といっしょに実際に手順をロールプレイを実施。ランスルーすることで 障害対応時に詰まるポイントを事前に知ることができた。運用開始前に手順書をブラッシュアップにつなげ る事ができた。 Lesson learned | ロールプレイによる事前チェック 30

    障害が発生しました。PagerDuty確認してSlackで応答してください。 (Acknowledgeボタン...どれだ??) 障害対応手順に従って対応を開始ます。まずはGrafanaでメトリクスを確認 してSlackで観測報告を報告してださい。 (どのメトリクスが、どれくらいに達してたら異常なんだ?) 対応者B ナビゲーター ナビゲーター 対応者A