Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
サービス成長と共に肥大化するモノレポ、長くなるCI時間 / As services grow,...
Search
kohbis
March 22, 2024
Technology
3.3k
5
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
サービス成長と共に肥大化するモノレポ、長くなるCI時間 / As services grow, monorepos get bigger and CI time gets longer
SRE観点での技術負債 懺悔会 2024
https://mixi.connpass.com/event/312191/
kohbis
March 22, 2024
More Decks by kohbis
See All by kohbis
『家族アルバム みてね』における インシデント対応との向き合い方 / Approach incident response in Family Album
kohbis
2
310
Kubernetes環境周りの責任範囲をいい機会なので考える / Taking the Opportunity to Clarify Kubernetes Responsibilities
kohbis
2
400
『家族アルバム みてね』におけるAmazon EKSコストとの向き合い方 / Optimizing Amazon EKS Costs: The FamilyAlbum Case
kohbis
4
1.7k
潜在的課題探索活動の近況報告 / Exploration of latent challenges
kohbis
2
170
いま、あらためて考えてみるアカウント管理 with IaC / Account management with IaC
kohbis
3
1.1k
〜『世界中の家族のこころのインフラ』を目指して”次の10年”へ〜 SREが導いたグローバルサービスの信頼性向上戦略とその舞台裏 / Towards the Next Decade: Enhancing Global Service Reliability
kohbis
4
6.8k
Grafana MCP serverでなんかし隊 / Try Grafana MCP server
kohbis
0
980
Custom Prometheus Exporterによる オブザーバビリティ拡張 / Extending observability with Custom Prometheus Exporter
kohbis
1
290
データベースで見る『家族アルバム みてね』の変遷 / The Evolution of Family Album Through the Lens of Databases
kohbis
5
1.6k
Other Decks in Technology
See All in Technology
protovalidate-es を導入してみた
bengo4com
0
170
Bucharest Tech Week 2026 - Reinventing testing practices in the AI era
edeandrea
PRO
1
140
実装は速くなった、レビューはどうする? ― 自身のレビューをAIで再現させるサーヴァントエンジニアリングのすゝめ / Implementation got faster. So what about reviews? — An invitation to Servant Engineering: Recreating your own code reviews with AI
nrslib
8
4.6k
Microsoft Build Keynoteふりかえり
tomokusaba
0
120
On-behalf-of Token exchange with AgentCore Identity
hironobuiga
2
140
社内 AI エージェント Synapse と セマンティックレイヤーの育て方
hiroakis
2
1.6k
日本 Fintech 未来予測レポート 2027〜2028年(オリジナル版)
8maki
0
1.3k
個人最適 から 全体最適 へ AI情報共有会・AIギルド・AI-DLC で進める カンリーの組織展開
rfdnxbro
0
2.2k
Claude Code の Sandbox 機能を Anthropic Sandbox Runtime(srt) で試そう!/lets-play-anthropic-sandbox-runtime
tomoki10
1
520
生成 AI × MCP で切り拓く次世代 SRE!自律型運用への挑戦と開発者体験の進化
_awache
0
190
新規事業を牽引する技術選定 〜フルスタックTypeScript開発の実践事例〜
nullnull
3
380
NAB Show 2026 動画技術関連レポート / NAB Show 2026 Report
cyberagentdevelopers
PRO
0
160
Featured
See All Featured
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
380
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.2k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
320
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
The Pragmatic Product Professional
lauravandoore
37
7.3k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
1.7k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
170
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
160
Marketing to machines
jonoalderson
1
5.4k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Speed Design
sergeychernyshev
33
1.8k
Transcript
サービス成長と共に 肥大化するモノレポ、 長くなるCI時間 @kohbis SRE観点での技術負債 懺悔会 2024
About Me Kohei SUGIMOTO 株式会社MIXI 2022/04 ~『家族アルバム みてね』 SRE X/GitHub
: @kohbis
Agenda 1. Introduction 2. 『家族アルバム みてね』のリポジトリ構成 3. サービス成長に伴うモノレポの課題 4. CI時間の増加の原因
5. 改善のためにやったこと 6. まとめ
『家族アルバム みてね』とは スマホで撮ったお子さまの写真・動画を家族で共有し コミュニケーションして楽しむ家族アルバムサービス 「世界中の家族の”こころのインフラ”を作る」 • 2015年4月リリース • 現在7言語・175の国と地域でサービスを提供 •
2023年11月に利用者数が2,000万人を突破 ※1 ※1 iOS・Android™ アプリ登録者数、ブラウザ版登録者数の合計
『家族アルバム みてね』の リポジトリ構成
『家族アルバム みてね』のリポジトリ構成 今回はサーバー側のみ • ほとんどの機能が巨大なモノリシックリ ポジトリに実装されている • いくつかサブシステムが切り出されたリ ポジトリもある (基本的に)Ruby
on Rails CI環境は • 主にCircleCI • 新規ではGitHub Actions API Web Task Worker 海外 配送 画像 解析 1秒 動画 DVD etc.
サービス成長に伴うモノレポの課題
サービス成長に伴うモノレポの課題 サービス成長 → 機能の追加 → リポジトリの肥大化 • 依存関係の複雑化 ◦ 変更の影響範囲調査、エラー特定の難化
• コードベースの管理難易度の増加 ◦ 新たな開発者のキャッチアップ負荷 etc. • CI時間の増加 今回はこちらの話 ◦ (後述)
CI時間の増加の影響 Four Keys ソフトウェア開発チームのパフォーマンスを示す 4 つの指標 • デプロイの頻度 … 組織による正常な本番環境へのリリースの頻度
• 変更のリードタイム … commit から本番環境稼働までの所要時間 • 変更障害率 … デプロイが原因で本番環境で障害が発生する割合(%) • サービス復元時間 … 組織が本番環境での障害から回復するのにかかる時間 ref: https://cloud.google.com/blog/ja/products/gcp/using-the-four-keys-to-measure-your-devops-performance CI実行リソースの従量課金も増加
CI時間の増加の原因
CI時間の増加の原因 • リポジトリサイズの肥大化 → チェックアウト時間の増加 • 使用するライブラリの増加 → インストール時間の増加 •
機能、コードの増加 → テスト実行時間の増加 • コンテナイメージサイズの増加 → イメージのPull/Build/Push時間の増加 『家族アルバム みてね』のモノレポにおけるCI時間(2024/03現在) • Rspecのテスト数 … 約23,000 • CircleCI(並列数: 32) • CI実行時間 … 約11分
改善のためにやったこと
やったこと • (ライブラリのキャッシュ設定は有効) • CI用イメージ(ECR)を東京リージョンからバージニア北部リージョンに移行 > AWS ECR イメージを使用する場合は、us-east-1 リージョンを使用することをお勧めします。
CircleCI のジョブ 実行インフラストラクチャは us-east-1 リージョンにあるので、同じリージョンにイメージを配置すると、イメー ジのダウンロードにかかる時間が短縮されます。 ref: https://circleci.com/docs/ja/using-docker/#docker-image-best-practices → イメージ取得時間を1/3に短縮(ECRのコスト減にも) • 静的コンテンツの取得元を東京リージョンからバージニア北部リージョンに移行 → DL時間を1/2に短縮(S3のコスト減にも) • 不要なチェックアウトを削除(Commit Hash値を取得するためだけ、など) → 約1分間の短縮
やった/やろうとしたけどだめだったこと • CircleCIのマシンサイズと並列数の調整 ◦ サイズを小さくしてジョブの並列数をあげる → リソースが足りずテストが終わらなくなってしまう ◦ サイズを大きくしてジョブごとのテストを並列実行(paralles testsなど)
→ 多少早くなるがリソース時間にかかるコストとのバランスが悪い • CircleCIでソースコードのキャッシュ → リポジトリサイズが大きいためsave/restoreに時間がかかってしまう • 同時実行数の制限を緩和するためDependabotによるPR起票時間を深夜帯にする → 大量のPRが同時に起票されCircleCIの同時実行数制限に達してしまう
やった/やろうとしたけどだめだったこと • GitHub Actionsの検証 ◦ 実行時間はCircleCIと同等 ◦ Initialize containersステップの実行時間が安定しない ref:
https://github.com/orgs/community/discussions/25975 → 変更のリードタイムが長期化してしまう • GitHub Actions Self-hosted Runnersの検証 ◦ ノード起動済みの場合、実行時間はCircleCIと同等 ◦ ノードスケールを伴う場合、実行時間が安定しない ※ CircleCIにもSelf-hosted Runnerがあるが未検証 ref: https://circleci.com/docs/runner-overview/
(おまけ)やれてないこと • Dockerイメージサイズの削減 • ソースコードのチェックアウトをShallow Cloneで行う ◦ CircleCIのIdeasでは提案されている ref: https://circleci.canny.io/cloud-feature-requests/p/allow-for-shallow-clone-command-in-20
• CircleCIで動かす必要のないものはGitHub Actionsへ移行 ◦ 開発者はGitHub Actionsの方が馴染みがある ◦ GitHub Actions Self-hosted Runnersも有効活用していきたい • テストの見直し ◦ 不要なテストやイテレーションがないか ◦ 修正内容によって必要なテストのみにできないか ◦ Flaky Testの撲滅、影響緩和
まとめ
まとめ • サービス成長にともなってモノレポが肥大化し、CI時間の増加などの問題が発生する • CI時間増加の要因は、大量のテストケースやコンテナイメージのビルド時間増加など さまざま • 改善策はたくさんあるが、自分のプロジェクトで効果があるかは要検証 ◦ 並列化、キャッシュ戦略、リソース最適化など
• CIのパイプライン環境の改善ではどこかで限界がくる ◦ (おそらく)行き着くところはテストの見直し 「パフォーマンス最大化できなくてごめんなさい」 「すぐに価値を提供できなくてごめんなさい」
None