チームメンバー迷わないIaC設計

チームメンバーが迷わないIaC設計読むときも、実行するときも、どんなときも 2026/02/28 SRE Kaigi 2026 延長戦 @hymaaa_k

hym(@hymaaa_k) 株式会社スリーシェイクでプラットフォーム基盤を構築したり、SRE支援を行っています。イベントに参加・運営したりするイベント驚き屋 IaCが難しいよねって世論に対抗したい 2

今日お話しすること IaCの課題を設計で解消するこんな経験ありませんか？ diff追ってたはずが、変数→tfvars→module→……「あれ、何見てたんだっけ？」 plan 打ったら関係なさそうなリソースまで出てきて「これ関係ある…？」「ここ見てね」って言ったのに翌日「どこから読めばいいですか？」って聞かれる技術的な難しさではなく、設計の問題として IaC を捉え直す
3

なぜIaCは難しいのか「処理」ではなく「状態」を書くから通常のプログラミング = 処理を書く「何をするか」を書くコードを一方向に読めば結果が予測できる IaC = 状態を書く
「どうあるべきか」を書く「今どうなっているか」が別に存在するコードだけ読んでも答えがわからない状態を扱う以上、コンテキストスイッチは構造的に多くなりがち 4

IaCで「迷う」とは？状態を扱うから生まれる3つの迷い読むだけではわからない変数や分岐を自分で処理しないと、最終的な状態が組み立てられない差分が読めない変更の結果が意図通りか、影響範囲はどこまでか、判断できない
どこまで抽象化すべきかわからない何を隠して何を見せるか、その線引きが判断できない根っこにあるのはコンテキストスイッチだと思っています 5

心がけている5つの原則まずはコードの構造の話から 6

原則 1: 条件分岐を減らすコードを読むだけで状態がわかるようにする条件分岐があると、コードを読んだだけでは最終的な値がわからない。読み手が頭の中で実行する必要があるコンテキストスイッチが発生するファイル間の移動: 変数定義を探す → tfvarsの値を確認
脳内処理: 条件を組み立てる、レビュー時はすべてのパターンを追い直す 7

原則 1: 悪い例 resource "aws_instance" "app" { instance_type = var.env
== "prod" ? ( var.workspace == "shared" ? "t3.xlarge" : "t3.large" ) : "t3.micro" monitoring = var.env == "prod" && var.workspace != "batch" root_block_device { volume_size = var.env == "prod" ? ( var.workspace == "batch" ? 200 : 100 ) : 20 } } 2つの変数の組み合わせで分岐（CDKの if 文やPulumiの条件式でも同じ問題が起きる） 3属性 × 2変数 = 読み手が処理する分岐が6箇所 8

原則 1: 良い例構造で解決する # prod/shared/main.tf resource "aws_instance" "app" {
instance_type = "t3.xlarge" monitoring = true root_block_device { volume_size = 100 } } prod/shared/main.tf を開けば答えがわかる。分岐ゼロデータで解決する locals { config = { prod-shared = { type = "t3.xlarge" vol = 100, mon = true } prod-batch = { type = "t3.large" vol = 200, mon = false } dev-default = { type = "t3.micro" vol = 20, mon = false } } }["${var.env}-${var.workspace}"] 組み合わせを表にする。計算不要で「表を見るだけ」どちらもコンテキストスイッチを不要にする。読むだけで答えがわかる 9

原則 2: 構造で語る管理単位を分けて認知のコンテキストスイッチを減らす管理単位が大きいと、変更対象以外のリソースまで認知範囲に入ってくるコンテキストスイッチが発生する差分出力のノイズ: 変えたのはECSだけなのに、VPC・ALB・RDSも表示される安全確認の往復: 「これ触って大丈夫？」と確認して回る
10

原則 2: 悪い例 Terraform terraform/ ├── main.tf # VPC、ALB、ECS、RDS、 │
# S3、CloudFront...全部入り ├── variables.tf └── outputs.tf 1つのStateに全リソースが同居。 terraform plan で100個のリソースが表示される CDK export class MyStack extends Stack { constructor(scope: Construct, id: string) { // 全部ここに3000行... const vpc = new ec2.Vpc(...); const alb = new elbv2.ApplicationLoadBalancer(...); const cluster = new ecs.Cluster(...); const db = new rds.DatabaseInstance(...); } } 1つのStackに全リソースが同居。 cdk synth で全リソースが一気に出力される変更の影響範囲を絞れない。見たい差分だけを見ることができない 11

原則 2: 良い例 Terraform - Stateを分割 terraform/ ├── network/ #
State1: VPCだけ ├── platform/ # State2: ALB、ECSだけ └── data/ # State3: RDS、S3だけ terraform plan の出力がState単位に限定される。「今はネットワークだけ」と集中できる CDK - Stackを分割 // NetworkStackはVPCだけ class NetworkStack extends Stack { ... } // PlatformStackはALB、ECSだけ class PlatformStack extends Stack { ... } cdk synth NetworkStack で対象を限定できる分割すれば見る範囲が限定される。変更対象だけに集中できる 12

原則 3: 分割粒度はライフサイクル変更頻度で分けて実行時のコンテキストスイッチを減らす Terraform State、CDK Stack、Pulumi Stack など管理単位の呼び方は違っても、変更頻度が違うものが同居していると実行のたびに余計な確認が発生します
コンテキストスイッチが発生する無関係な差分の混入: アプリをデプロイしたいだけなのに、ネットワーク層の差分も表示される毎回の安全確認: 「これ触って大丈夫？」と確認する往復が毎回発生 13

原則 3: 悪い例 platform/ ├── alb.tf # 月1回の変更 ├── ecs_cluster.tf
# 月1回の変更 ├── ecs_service.tf # 日次でデプロイ ← ここだけ頻度が違う └── ecs_task_def.tf # 日次でデプロイ ← ここだけ頻度が違う役割で分けた結果、変更頻度が全く違うリソースが同居。planのたびにクラスタやALBの差分も表示される変更頻度の違うリソースが同居し、毎回の安全確認が避けられない 14

原則 3: 良い例小さいプロダクト → プロダクトごと product-a/ # 変更頻度が近いリソースが自然にまとまる product-b/
shared/ # 共通リソースプロダクト内のリソースは変更タイミングが近いので、そのまま管理単位になる大きいプロダクト → レイヤーで分割 01-network/ # 月1回 02-compute/ # 週1回 03-apps/ # 日次デプロイプロダクト内で変更頻度に差が出てきたら、レイヤーで分ける変更頻度が近いものだけが同居する。確認対象が減り集中できる 15

「どこまでやるか」の線引き抽象化と管理範囲の話 16

原則 4: 目的を考えた抽象化実装へのコンテキストスイッチをコントロールする IaCの抽象化（module、Construct等）は、利用者と実装の境界を決める設計判断です手段は2つあり、リソースの扱い方が異なりますテンプレート（共通化）リソースを固定し、繰り返しを減らす ←→ カプセル化（隠蔽）
関心事だけ受け取り、リソースは内部で決定するテンプレートはコンテキストスイッチのコストを下げ、カプセル化はさせない 17

原則 4: 2つの手段誰が作り、誰が使うかで設計が変わる目的と手段がブレると、コンテキストスイッチが制御できなくなるインフラ・ SREチーム → 抽象化中身も
把握する → インフラ・ SREチーム作る人 = 使う人。繰り返しを減らして整理する抽象化 = DRY原則。同じリソース定義を書かせない共通化 Platform チーム → 抽象化中身は見せない → App チーム作る人 ≠ 使う人。複雑さを吸収して迷わせない抽象化 = インターフェース。チーム間の境界を定義する隠蔽 18

原則 4: 悪い例 module "service" { source = "./modules/service" family
= "user-api" image = "ecr.../user-api:v1.2.3" cpu = 256 memory = 512 container_port = 8080 subnet_ids = module.network.private_ids vpc_id = module.network.vpc_id # 特定のサービスのために追加されたパラメータ legacy_port_mapping = { 8080 = 80 } # → ListenerRuleが追加される skip_service_discovery = true # → ServiceDiscoveryが消える } リソースの増減が入り込み、状態だけでなくリソースまで管理・確認が必要になっている例外対応のために、実装を確認するコンテキストスイッチが増える 19

原則 4: 良い例テンプレート（繰り返しを避けたい） module "service" { source = "./modules/service"
family = "user-api" image = "ecr.../user-api:v1.2.3" cpu = 256 memory = 512 container_port = 8080 subnet_ids = module.network.private_ids vpc_id = module.network.vpc_id } # 例外が必要なら module を使わず直接書く DRY原則。インフラの関心事を変数として全て露出するカプセル化（複雑さを隠したい） module "service" { source = "./modules/service" app_name = "user-api" image = "ecr.../user-api:v1.2.3" container_port = 8080 legacy_port_mapping? → 対応 skip_service_discovery? → 対応 } インターフェース。Appチームの関心事（app名・image・ port）だけを渡す目的が明確なら、不要なコンテキストスイッチが発生しない 20

原則 5: IaCだけで管理しない不要なコンテキストスイッチを避けるどのIaCツールでも、全てをコード化しようとすると条件分岐が増え、コンテキストスイッチが増えますコンテキストスイッチが増える初回セットアップをTerraformで管理 → is_first_run 変数を確認
→ 「今は初回？」と考える → enable_locking 変数も確認 → 「ロックは有効？」と考える... 本来1回きりの作業に、永続的なコンテキストスイッチが残る 21

原則 5: 悪い例 # 初回セットアップのために複雑な条件分岐 resource "aws_s3_bucket" "state" { count
= var.is_first_run ? 1 : 0 # ... } resource "aws_dynamodb_table" "lock" { count = var.is_first_run && var.enable_locking ? 1 : 0 # ... } 1回きりの作業をコード化し、複雑な条件分岐を追加 is_first_run、enable_locking など、複数の変数を確認して理解する往復が毎回発生する 22

原則 5: 良い例 # docs/setup.md ## 初回セットアップ手順 1. S3バケットを手動で作成 aws
s3 mb s3://my-terraform-state 2. backend設定を追加 3. terraform initを実行シンプルなドキュメントとして記述手順書を見るだけで完結。コード内の条件分岐を確認する往復が不要 23

まとめ 5つの原則 1. 分岐を減らす — 読むだけで結果がわかる 2. 構造で語る — 見る範囲を限定する
3. ライフサイクルで分割 — 変更対象だけに集中する 4. 目的を考えた抽象化 — 実装へのコンテキストスイッチをコントロールする 5. IaCだけで管理しない — コード化しない判断をする明日からできることまずは自分のIaCで ? や if を検索して、条件分岐の数を数えてみる 1つのStateやStackが管理するリソース数を確認する。多すぎたら分割を検討余裕があれば、moduleの目的が「共通化」か「隠蔽」かチームで話してみるそのIaC、何回コンテキストスイッチが発生しますか？ 24

about 3-shake 25

We are Hiring 3-shakeは一緒にSRE界隈を盛り上げてくれる仲間を大募集中です！ Mobility、FinTech、通信など大規模SREを存分に経験できます是非、カジュアル面談しましょう！ 26

ありがとうございましたご質問・ご相談はお気軽にお問い合わせください @hymaaa_k | https://3-shake.com

Appendix 抽象化の2つの手段 — 共通化と隠蔽 28

抽象化の2つの手段誰が作り、誰が使うかで設計が変わる同じmoduleでも、目的が違えばインターフェースが変わるインフラ・ SREチーム → module 中身も把握する →
インフラ・ SREチーム作る人 = 使う人。繰り返しを減らして整理する共通化 Platform チーム → module 中身は見せない → App チーム作る人 ≠ 使う人。複雑さを吸収して迷わせない隠蔽 29

共通化: インフラ・SREチームの内部整理同じパターンの繰り返しを減らす呼び出し側（SREチーム自身が書く） module "service" { source = "./modules/service"
family = "user-api" image = "ecr.../user-api:v1.2.3" cpu = 256 memory = 512 container_port = 8080 subnet_ids = module.network.private_ids vpc_id = module.network.vpc_id alarm_actions = [aws_sns_topic.alert.arn] } module内部（チーム全員が読む前提） # ECS TaskDefinition → パラメータで構成 # ECS Service → パラメータで構成 # TargetGroup → パラメータで構成 # CloudWatch Alarm → パラメータで構成 # # 「何が作られるか」は呼び出し側から # 全て把握できる。 # moduleはボイラープレートの削減が目的特徴: インターフェースは「インフラの関心事」を全て露出する。チーム内の全員がmoduleの中身を理解している前提。中身へのコンテキストスイッチがしやすい設計 30

隠蔽: Platformチーム → Appチームへの提供アプリチームにインフラの詳細を見せない Appチームが書くコード module "service" { source
= "git::https://.../modules/service" app_name = "user-api" image = "ecr.../user-api:v1.2.3" container_port = 8080 replicas = 3 # これだけ。あとはPlatformチームが面倒を見る } module内部（Appチームは触らない） # VPC, Subnet → 自動選択 # ALB, TargetGroup → 自動作成 # SecurityGroup → ベストプラクティス適用 # CloudWatch Alarm → 標準メトリクス設定 # IAM Role → 最小権限で自動生成特徴: インターフェースは「アプリの関心事」だけ。ネットワーク・監視・セキュリティはmodule内で決定する。Appチームが中身を見る必要がない＝コンテキストスイッチが発生しない 31

共通化と隠蔽の比較共通化隠蔽誰が作るインフラ・SREチーム Platformチーム誰が使う作った本人たち Appチームインターフェース
インフラの関心事を全て露出アプリの関心事だけ module内部見る前提見なくていい例外対応 moduleを使わない判断をする module内部で吸収パラメータ数多い少ない目指すもの繰り返させない迷わせないどちらが正しいかではない。目的が違えばインターフェースが変わる共通化なのに隠蔽のインターフェース → SREチームが迷う（中で何が起きてるかわからない）隠蔽なのに共通化のインターフェース → Appチームが迷う（パラメータ多すぎ） 32

テンプレートにリソースの増減が入ったらリソースの変化パターンごとの対処数が増える（例: レプリカ、サブネット） count や for_each で動的なテンプレートにする。リソースの種
類は固定のまま 0→1で生える（例: ListenerRule）それはこのmoduleが管理すべきものではない。module外で管理する条件で消える（例: ServiceDiscovery）それはこのmoduleが管理すべきものではない。最初からmoduleに含めないテンプレートはリソース宣言を固定するもの。増減が必要ならmoduleの境界を見直す 33

チームメンバー迷わないIaC設計

チームメンバー迷わないIaC設計

hayama

More Decks by hayama

Other Decks in Technology

Featured

Transcript

チームメンバーが迷わないIaC設計読むときも、実行するときも、どんなときも 2026/02/28 SRE Kaigi 2026 延長戦 @hymaaa_k

hym(@hymaaa_k) 株式会社スリーシェイクでプラットフォーム基盤を構築したり、SRE支援を行っています。イベントに参加・運営したりするイベント驚き屋 IaCが難しいよねって世論に対抗したい 2

なぜIaCは難しいのか「処理」ではなく「状態」を書くから通常のプログラミング = 処理を書く「何をするか」を書くコードを一方向に読めば結果が予測できる IaC = 状態を書く

心がけている5つの原則まずはコードの構造の話から 6

原則 1: 悪い例 resource "aws_instance" "app" { instance_type = var.env

原則 1: 良い例構造で解決する # prod/shared/main.tf resource "aws_instance" "app" {

原則 2: 悪い例 Terraform terraform/ ├── main.tf # VPC、ALB、ECS、RDS、 │

原則 2: 良い例 Terraform - Stateを分割 terraform/ ├── network/ #

原則 3: 悪い例 platform/ ├── alb.tf # 月1回の変更 ├── ecs_cluster.tf

原則 3: 良い例小さいプロダクト → プロダクトごと product-a/ # 変更頻度が近いリソースが自然にまとまる product-b/

「どこまでやるか」の線引き抽象化と管理範囲の話 16

原則 4: 2つの手段誰が作り、誰が使うかで設計が変わる目的と手段がブレると、コンテキストスイッチが制御できなくなるインフラ・ SREチーム → 抽象化中身も

原則 4: 悪い例 module "service" { source = "./modules/service" family

原則 4: 良い例テンプレート（繰り返しを避けたい） module "service" { source = "./modules/service"

原則 5: 悪い例 # 初回セットアップのために複雑な条件分岐 resource "aws_s3_bucket" "state" { count

原則 5: 良い例 # docs/setup.md ## 初回セットアップ手順 1. S3バケットを手動で作成 aws

まとめ 5つの原則 1. 分岐を減らす — 読むだけで結果がわかる 2. 構造で語る — 見る範囲を限定する

about 3-shake 25

We are Hiring 3-shakeは一緒にSRE界隈を盛り上げてくれる仲間を大募集中です！ Mobility、FinTech、通信など大規模SREを存分に経験できます是非、カジュアル面談しましょう！ 26

ありがとうございましたご質問・ご相談はお気軽にお問い合わせください @hymaaa_k | https://3-shake.com

Appendix 抽象化の2つの手段 — 共通化と隠蔽 28

抽象化の2つの手段誰が作り、誰が使うかで設計が変わる同じmoduleでも、目的が違えばインターフェースが変わるインフラ・ SREチーム → module 中身も把握する →

共通化: インフラ・SREチームの内部整理同じパターンの繰り返しを減らす呼び出し側（SREチーム自身が書く） module "service" { source = "./modules/service"

隠蔽: Platformチーム → Appチームへの提供アプリチームにインフラの詳細を見せない Appチームが書くコード module "service" { source

共通化と隠蔽の比較共通化隠蔽誰が作るインフラ・SREチーム Platformチーム誰が使う作った本人たち Appチームインターフェース

テンプレートにリソースの増減が入ったらリソースの変化パターンごとの対処数が増える（例: レプリカ、サブネット） count や for_each で動的なテンプレートにする。リソースの種