Upgrade to Pro — share decks privately, control downloads, hide ads and more …

kintone開発組織のDevOpsへの移り変わりと実践

 kintone開発組織のDevOpsへの移り変わりと実践

JJUG CCC 2025 Springで発表した資料です。
https://ccc2025spring.java-users.jp/

Avatar for Shin'ya Ueoka

Shin'ya Ueoka

June 06, 2025
Tweet

More Decks by Shin'ya Ueoka

Other Decks in Technology

Transcript

  1. サイボウズという会社 サイボウズの歩み(決算報告から抜粋) クラウドビジネス転換 kintoneをリリース パートナービジネス開始 Garoonリリース メールワイズリリース kintone成長 1997 2002-2003

    2011 2017- 2022 創業 サイボウズ Office リリース 創業期 販売網開拓期・M&A期 クラウド転換期 kintone成長期 kintone 連結売上高 100億突破 kintone開発組織のDevOpsへの移り変わりと実践 8
  2. サイボウズのクラウドサービスの運用 課題1: 運用難易度の向上。システム規模の拡大によって、運用チームの認知負荷の向上や、オンボーディ ングの課題が顕著に。 • インフラ、VM基盤、L7LB、MySQLなどを運用する知識が要求される。 • 異なる技術スタックを採用(Javaアプリケーション&Jettyサーバー、PHP&CGI、等)した製品の運用。 課題2: 製品の開発チームと運用チームが、組織構造上の距離がある。

    • 本番環境のオペレーション実施は製品開発チームはできない。メトリクスの追加や運用ツールの導入など の運用改善は依頼ベース。 • 運用業務が開発プロセスに組み込まれていない。開発チームが運用環境からフィードバックを得られる動 機の減少。 運用体制の課題 kintone開発組織のDevOpsへの移り変わりと実践 12
  3. 運用できる開発組織に 製品開発チームを運用できる開発組織にするために、「仕組み」と「体制」の二軸で考える。 • 「仕組み」 ... 運用容易性を担保するための技術的アプローチ。モニタリングやアラート。 • 「体制」 ... 運用を実行可能にするための人やプロセスの設計。

    製品開発チームと今の運用チームから人を集めて、以下の狙いを持って部署横断 (本部横断) のプロジェ クトを発足。 • 今までの運用プラクティスのスキルトランスファー。 • 開発チームと運用チームの両者の業務を円滑に変更できる。 • 他のマネージャーからのスポンサーシップを得やすい やったこと kintone開発組織のDevOpsへの移り変わりと実践 17
  4. 運用できる開発組織に 障害対応の教育や訓練には様々なやり方がある。 • 関係者全員を含めた訓練 • 対応手順の確認のためのドリル • 実際に障害を起こす訓練 • 障害対応シナリオのロールプレイ

    障害対応を始めて行うメンバーがほとんどだったので、障害対応シナリオのロールプレイを実施。 取り組み7 | 障害対応ロールプレイ(1/2) kintone開発組織のDevOpsへの移り変わりと実践 25
  5. 運用できる開発組織に ロールプレイは事前に準備した障害シナリオに則って障害対応を実施。 2つの役割に分かれて実施。 • ナビゲーター: ロールプレイの案内役。シナリオの読み上げやインシデント発生状況を伝える。 • 対応者: ロールプレイのシナリオに沿って障害対応を行う。 取り組み7

    | 障害対応ロールプレイ(2/2) 障害が発生しました。PagerDuty確認してSlackで応答してください。 (PagerDutyでAcknowledge、Slackで返答) 障害対応手順に従って対応を開始ます。まずはGrafanaでメトリクスを確認 してSlackで観測報告を報告してださい。 (Slack「本番環境でエラー率が上昇してます」) 本番環境でお客様影響があります。社内連絡と社外告知の準備を進めてくだ さい ナビゲーター 対応者B ナビゲーター ナビゲーター 対応者A kintone開発組織のDevOpsへの移り変わりと実践 26
  6. kintone開発組織のDevOpsへの移り変わりと実践 まとめ オンコール開始前に運用を始める人といっしょに実際に手順をロールプレイを実施。ランスルーすることで 障害対応時に詰まるポイントを事前に知ることができた。運用開始前に手順書をブラッシュアップにつなげ る事ができた。 Lesson learned | ロールプレイによる事前チェック 30

    障害が発生しました。PagerDuty確認してSlackで応答してください。 (Acknowledgeボタン...どれだ??) 障害対応手順に従って対応を開始ます。まずはGrafanaでメトリクスを確認 してSlackで観測報告を報告してださい。 (どのメトリクスが、どれくらいに達してたら異常なんだ?) 対応者B ナビゲーター ナビゲーター 対応者A