Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
サービス成長と共に肥大化するモノレポ、長くなるCI時間 / As services grow,...
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
kohbis
March 22, 2024
Technology
3.3k
5
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
サービス成長と共に肥大化するモノレポ、長くなるCI時間 / As services grow, monorepos get bigger and CI time gets longer
SRE観点での技術負債 懺悔会 2024
https://mixi.connpass.com/event/312191/
kohbis
March 22, 2024
More Decks by kohbis
See All by kohbis
『家族アルバム みてね』における インシデント対応との向き合い方 / Approach incident response in Family Album
kohbis
2
340
Kubernetes環境周りの責任範囲をいい機会なので考える / Taking the Opportunity to Clarify Kubernetes Responsibilities
kohbis
2
410
『家族アルバム みてね』におけるAmazon EKSコストとの向き合い方 / Optimizing Amazon EKS Costs: The FamilyAlbum Case
kohbis
4
1.7k
潜在的課題探索活動の近況報告 / Exploration of latent challenges
kohbis
2
170
いま、あらためて考えてみるアカウント管理 with IaC / Account management with IaC
kohbis
3
1.1k
〜『世界中の家族のこころのインフラ』を目指して”次の10年”へ〜 SREが導いたグローバルサービスの信頼性向上戦略とその舞台裏 / Towards the Next Decade: Enhancing Global Service Reliability
kohbis
4
6.8k
Grafana MCP serverでなんかし隊 / Try Grafana MCP server
kohbis
0
1k
Custom Prometheus Exporterによる オブザーバビリティ拡張 / Extending observability with Custom Prometheus Exporter
kohbis
1
290
データベースで見る『家族アルバム みてね』の変遷 / The Evolution of Family Album Through the Lens of Databases
kohbis
5
1.6k
Other Decks in Technology
See All in Technology
なぜ人は自分のプロジェクトを 「なんちゃってアジャイル」と 自嘲するのか
kozotaira
0
120
When Platform Engineering Meets GenAI
sucitw
0
200
AIエージェントとPhysical AIが拓く製造業の変革(ハノーバーメッセリキャップ)
iotcomjpadmin
0
170
製造現場での生成AIの活用、およびエージェントAIの実装のあり方、AVEVAの取り組み
iotcomjpadmin
0
180
どうして今サーバーサイドKotlinを選択したのか
nealle
0
120
はてなのサービス基盤を支える Kubernetes《足腰》
masayoshimaezawa
0
220
起点・思考・出力で分解する 〜PM業務の自動化設計〜
kazu_kichi_67
2
1.2k
技術・能力を向上する原理原則 #きのこセッションa #きのこ2026
bash0c7
0
170
徹底討論!ECS vs EKS!
daitak
3
1.8k
AI 不只幫你寫 Code: 當專案從 300 暴增到 1500, 我們如何撐住 DevOps
appleboy
0
280
MySQL & MySQL HeatWave Report - June 2026
freshdaz
0
210
Multi-Agent並列開発を 安全に回すための技術 / Technology for Safely Multi-Agent Parallel Development
tooppoo
0
220
Featured
See All Featured
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
490
Speed Design
sergeychernyshev
33
1.9k
Unsuck your backbone
ammeep
672
58k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
340
Design in an AI World
tapps
1
250
We Have a Design System, Now What?
morganepeng
55
8.2k
Code Reviewing Like a Champion
maltzj
528
40k
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
2
580
Abbi's Birthday
coloredviolet
3
8.3k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
550
Odyssey Design
rkendrick25
PRO
2
710
Skip the Path - Find Your Career Trail
mkilby
1
150
Transcript
サービス成長と共に 肥大化するモノレポ、 長くなるCI時間 @kohbis SRE観点での技術負債 懺悔会 2024
About Me Kohei SUGIMOTO 株式会社MIXI 2022/04 ~『家族アルバム みてね』 SRE X/GitHub
: @kohbis
Agenda 1. Introduction 2. 『家族アルバム みてね』のリポジトリ構成 3. サービス成長に伴うモノレポの課題 4. CI時間の増加の原因
5. 改善のためにやったこと 6. まとめ
『家族アルバム みてね』とは スマホで撮ったお子さまの写真・動画を家族で共有し コミュニケーションして楽しむ家族アルバムサービス 「世界中の家族の”こころのインフラ”を作る」 • 2015年4月リリース • 現在7言語・175の国と地域でサービスを提供 •
2023年11月に利用者数が2,000万人を突破 ※1 ※1 iOS・Android™ アプリ登録者数、ブラウザ版登録者数の合計
『家族アルバム みてね』の リポジトリ構成
『家族アルバム みてね』のリポジトリ構成 今回はサーバー側のみ • ほとんどの機能が巨大なモノリシックリ ポジトリに実装されている • いくつかサブシステムが切り出されたリ ポジトリもある (基本的に)Ruby
on Rails CI環境は • 主にCircleCI • 新規ではGitHub Actions API Web Task Worker 海外 配送 画像 解析 1秒 動画 DVD etc.
サービス成長に伴うモノレポの課題
サービス成長に伴うモノレポの課題 サービス成長 → 機能の追加 → リポジトリの肥大化 • 依存関係の複雑化 ◦ 変更の影響範囲調査、エラー特定の難化
• コードベースの管理難易度の増加 ◦ 新たな開発者のキャッチアップ負荷 etc. • CI時間の増加 今回はこちらの話 ◦ (後述)
CI時間の増加の影響 Four Keys ソフトウェア開発チームのパフォーマンスを示す 4 つの指標 • デプロイの頻度 … 組織による正常な本番環境へのリリースの頻度
• 変更のリードタイム … commit から本番環境稼働までの所要時間 • 変更障害率 … デプロイが原因で本番環境で障害が発生する割合(%) • サービス復元時間 … 組織が本番環境での障害から回復するのにかかる時間 ref: https://cloud.google.com/blog/ja/products/gcp/using-the-four-keys-to-measure-your-devops-performance CI実行リソースの従量課金も増加
CI時間の増加の原因
CI時間の増加の原因 • リポジトリサイズの肥大化 → チェックアウト時間の増加 • 使用するライブラリの増加 → インストール時間の増加 •
機能、コードの増加 → テスト実行時間の増加 • コンテナイメージサイズの増加 → イメージのPull/Build/Push時間の増加 『家族アルバム みてね』のモノレポにおけるCI時間(2024/03現在) • Rspecのテスト数 … 約23,000 • CircleCI(並列数: 32) • CI実行時間 … 約11分
改善のためにやったこと
やったこと • (ライブラリのキャッシュ設定は有効) • CI用イメージ(ECR)を東京リージョンからバージニア北部リージョンに移行 > AWS ECR イメージを使用する場合は、us-east-1 リージョンを使用することをお勧めします。
CircleCI のジョブ 実行インフラストラクチャは us-east-1 リージョンにあるので、同じリージョンにイメージを配置すると、イメー ジのダウンロードにかかる時間が短縮されます。 ref: https://circleci.com/docs/ja/using-docker/#docker-image-best-practices → イメージ取得時間を1/3に短縮(ECRのコスト減にも) • 静的コンテンツの取得元を東京リージョンからバージニア北部リージョンに移行 → DL時間を1/2に短縮(S3のコスト減にも) • 不要なチェックアウトを削除(Commit Hash値を取得するためだけ、など) → 約1分間の短縮
やった/やろうとしたけどだめだったこと • CircleCIのマシンサイズと並列数の調整 ◦ サイズを小さくしてジョブの並列数をあげる → リソースが足りずテストが終わらなくなってしまう ◦ サイズを大きくしてジョブごとのテストを並列実行(paralles testsなど)
→ 多少早くなるがリソース時間にかかるコストとのバランスが悪い • CircleCIでソースコードのキャッシュ → リポジトリサイズが大きいためsave/restoreに時間がかかってしまう • 同時実行数の制限を緩和するためDependabotによるPR起票時間を深夜帯にする → 大量のPRが同時に起票されCircleCIの同時実行数制限に達してしまう
やった/やろうとしたけどだめだったこと • GitHub Actionsの検証 ◦ 実行時間はCircleCIと同等 ◦ Initialize containersステップの実行時間が安定しない ref:
https://github.com/orgs/community/discussions/25975 → 変更のリードタイムが長期化してしまう • GitHub Actions Self-hosted Runnersの検証 ◦ ノード起動済みの場合、実行時間はCircleCIと同等 ◦ ノードスケールを伴う場合、実行時間が安定しない ※ CircleCIにもSelf-hosted Runnerがあるが未検証 ref: https://circleci.com/docs/runner-overview/
(おまけ)やれてないこと • Dockerイメージサイズの削減 • ソースコードのチェックアウトをShallow Cloneで行う ◦ CircleCIのIdeasでは提案されている ref: https://circleci.canny.io/cloud-feature-requests/p/allow-for-shallow-clone-command-in-20
• CircleCIで動かす必要のないものはGitHub Actionsへ移行 ◦ 開発者はGitHub Actionsの方が馴染みがある ◦ GitHub Actions Self-hosted Runnersも有効活用していきたい • テストの見直し ◦ 不要なテストやイテレーションがないか ◦ 修正内容によって必要なテストのみにできないか ◦ Flaky Testの撲滅、影響緩和
まとめ
まとめ • サービス成長にともなってモノレポが肥大化し、CI時間の増加などの問題が発生する • CI時間増加の要因は、大量のテストケースやコンテナイメージのビルド時間増加など さまざま • 改善策はたくさんあるが、自分のプロジェクトで効果があるかは要検証 ◦ 並列化、キャッシュ戦略、リソース最適化など
• CIのパイプライン環境の改善ではどこかで限界がくる ◦ (おそらく)行き着くところはテストの見直し 「パフォーマンス最大化できなくてごめんなさい」 「すぐに価値を提供できなくてごめんなさい」
None