Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SREチームの立ち上げから5年間とこれから
Search
CyberAgent SGE Engineer
January 16, 2024
Technology
0
1.7k
SREチームの立ち上げから5年間とこれから
「SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT」の発表資料です。
https://findy.connpass.com/event/305677/
CyberAgent SGE Engineer
January 16, 2024
Tweet
Share
More Decks by CyberAgent SGE Engineer
See All by CyberAgent SGE Engineer
サムザップにおけるNotionの 活用事例とPHPでのNotionAPIを利用した仕組み構築の紹介
sgeengineer
0
1.9k
Laravel OctaneをどうしてもPharで運用したい話
sgeengineer
2
2.4k
大規模Unityゲーム開発の設計事例 〜ドメイン駆動設計とDIコンテナを導入した一年を振り返る〜 / cedec2021-ddd
sgeengineer
2
14k
ロボットを動かすビジュアルプログラミングでできることはPHPでもできる!
sgeengineer
0
1.6k
PHP8版!Swooleのフレームワークを比べてみた
sgeengineer
1
2.6k
「戦国炎舞 -KIZNA-」で行ったAWSのコスト最適化の話
sgeengineer
0
1.7k
AirtestとPocoとOpenSTFによるUnity製スマートフォン向けゲームの実機自動テスト環境構築とその利用方法
sgeengineer
0
4.9k
PHPでgRPCって どこまでいけるの?
sgeengineer
0
4.8k
エンジニアの文化の作り方 〜社内Podcastのススメ〜
sgeengineer
1
3.9k
Other Decks in Technology
See All in Technology
彩の国で始めよう。おっさんエンジニアから共有したい、当たり前のことを当たり前にする技術
otsuki
0
150
Classmethod AI Talks(CATs) #21 司会進行スライド(2025.04.17) / classmethod-ai-talks-aka-cats_moderator-slides_vol21_2025-04-17
shinyaa31
0
580
watsonx.data上のベクトル・データベース Milvusを見てみよう/20250418-milvus-dojo
mayumihirano
0
110
MCPを活用した検索システムの作り方/How to implement search systems with MCP #catalks
quiver
12
6.5k
От ручной разметки к LLM: как мы создавали облако тегов в Lamoda. Анастасия Ангелова, Data Scientist, Lamoda Tech
lamodatech
0
710
大AI時代で輝くために今こそドメインにディープダイブしよう / Deep Dive into Domain in AI-Agent-Era
yuitosato
1
360
クォータ監視、AWS Organizations環境でも楽勝です✌️
iwamot
PRO
1
310
The Tale of Leo: Brave Lion and Curious Little Bug
canalun
1
120
日経電子版 for Android の技術的課題と取り組み(令和最新版)/android-20250423
nikkei_engineer_recruiting
0
250
AI Agentを「期待通り」に動かすために:設計アプローチの模索と現在地
kworkdev
PRO
2
440
Recap of Next - Google Cloud で実践する クラウドネイティブ最前線 / The Frontlines of Cloud-Native with Insights from Google Cloud
aoto
PRO
1
100
LangfuseでAIエージェントの 可観測性を高めよう!/Enhancing AI Agent Observability with Langfuse!
jnymyk
1
220
Featured
See All Featured
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
52
2.4k
How GitHub (no longer) Works
holman
314
140k
Building Flexible Design Systems
yeseniaperezcruz
329
38k
Side Projects
sachag
452
42k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
How to train your dragon (web standard)
notwaldorf
90
6k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
45
9.5k
Producing Creativity
orderedlist
PRO
344
40k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
13
1.4k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
41
2.2k
For a Future-Friendly Web
brad_frost
176
9.7k
Transcript
SREチームの立ち上げから5年間 とこれから Senior Service Reliability Engineer 吉岡 賢
SREチームの立ち上げから5年間 とこれから Senior Service Reliability Engineer 吉岡 賢
会社紹介 サムザップってどんな会社?
ゲーム・エンターテイメント事業部(SGE)について 子会社制をとっており、 ゲーム・エンターテイメント事業に 携わる10社の子会社が 所属しています。 ゲーム・エンターテイメント事業部(SGE) 4
Sumzapの代表的なタイトル 会社紹介 会社概要 ・2009年5月設立 ・スマホゲームアプリの企画 / 開発 / 運用 5
吉岡 賢 Yoshioka Suguru 自己紹介 2016年度 サイバーエージェント新卒入社。 サムザップに出向し、主力サービスのオンプレミスか ら AWS
への移設において設計、運用、開発に従事。 エンジニア統括組織のメンバーやエンジニアの 採用育成責任者などを歴任。 現在は、Enabling SRE として運用改善と文化作りに 力を入れている。 好きなAWSサービスは Amazon Route53 プライベートでは.... • 妻と猫、日本酒をこよなく愛するクッキーモンスター • SRE NEXT 2023 ではコアスタッフしていました! 6
それぞれの時期における課題と成果など • SREチーム立ち上げ以前 • SREチーム立ち上げ期 • SREチーム解散! • SREチーム解散後(現状とこれから) 今日のお話
7
SREチーム立ち上げ以前 〜 2018年4月以前
インフラチーム体制イメージ図 9 ・サービスインフラチームから各プロジェクトのインフラを担当する ・担当がおり、それぞれがプロジェクトを把握する
様々な思い 10 開発側にもインフラを把握してほしい 信頼性向上の対象を継続的に観測する方法と指標は? キャパシティプランニングの指標が欲しい ローカル環境の充実化 運用タスクに忙殺されてしまう パブリッククラウド使いたい 技術選定の理由や議論を知りたい 共通ユーザなどセキュリティ面の見直ししたい
オンボーディング強化したい インフラ予算を削減して他に投資したい タスクが属人化している気がする
SREチームを立ち上げる目的 11 チームの役割に合わせて名称変更 インフラチーム = サーバの保守など運用 というイメージが強い サービスの信頼性を向上させることが中心で、今後も継続して強化していくと いう意識を持つため 社内の信頼性に関する意識を向上させる
サムザップが提供するサービスの信頼性を向上するというチームの役割を 周知、浸透させることで会社全体を巻き込みやすくする サービスの信頼性を向上する業務ならば、社内を巻き込みながらなんでも行 うという能動的な業務スタイルを取るチームがサムザップに誕生しました!
SREチーム立ち上げ 2018年4月〜
SREチーム体制イメージ図 13 ・SREチームから各プロジェクトへ入り、プロジェクトと一緒に進める ・プロジェクト間、グループ内での情報共有に努める
立ち上げてまずやったこと 14 1. チーム合宿 チームの目標や行動指針、メンバーの相互理解のための時間を作った → お互いの考えや人間性などを知ることができ、メンバーの意外な一面を発見した → 良いところを再確認したりすることができた →
話しやすく、相談しやすい雰囲気とチームビルディングに絶大な効果 2. 行動指針の制定 チームで業務を行う際の行動指針を制定した
SREチームの行動指針 15 UXファースト - 対ユーザ向けのサービスを運営していることを忘れずにシステム面でもユーザの体験を 第一に考える(お問い合わせのシステムや、ゲームのレスポンスなど) オープンなチームであれ - クローズドなイメージが強いSREチームだからこそ情報は常にオープンに。 プロジェクトに寄り添い、現場と融合するチームを目指す
その技術はイケているか? - 最新の技術動向をとらえ、今あるシステムを常に見直し、導入コストや メリット・デメリットを考え抜く 1人プレイ禁止 - SGEエンジニア行動指針である「エンジン」に準拠。1人で考え行動するのではなく、組 織に所属して働いている意味を考える ムチャをしない - 行動を起こす前にスケジュールを立て、常に最悪の状態を想定し冷静であれ 感謝されるチームであれ - 多くのチームと関わりシステマチックな解決に導く。また他チームの方に もチーム価値を正しく知ってもらうように努める
主力ゲームをオンプレミスからAWSへ 16 とあるSREチームの挑戦 6年目の大規模ゲームを AWS移設後に安定運用するための技術と今後の展望 AWS Summit 2019 登壇資料
得られた成果 17
この頃に整備したもの 技術および業務の標準化 ドキュメントの場所、内容を規定 → 技術選定に関するドキュメントなどを作成 → 新しいプロジェクトで何を決めるか、何故選んだのか 技術や業務の標準化 → プロジェクトでいつ頃何が必要になるのか
→ 負荷試験、ログ管理、分析基盤に関するドキュメント → 構成管理、ツールの標準化 18 得意なメンバーが ガンガン進めてくれた
SREチーム解散! 2021年XX月〜
SREチーム解散後体制イメージ図 20 ・各プロジェクトに所属して、SREを実践する中心メンバーとして活動する ・各プロジェクトの状況や課題を共有したり、相談するMTGや横軸活動を行う
Embedded SRE 21 メリット • プロジェクトメンバーとの距離が近くなる • 課題の把握がしやすくなる • サービス開発とインフラ両方に深く関われる
デメリット • SREs がやってくれるよねというよくない安心感 ※ 巻き込みと情報共有がとても重要に
課題 プロジェクト内に閉じこもりがち → 情報共有:社内でのSREs連携だけでなく、グループ内も → 課題、優先順位:プロジェクトと会社のバランス → 市場のSRE: どんなことをして何を課題に思っているのか
22
ゲーム・エンターテイメント事業部(SGE) 23 メディア事業部 インターネット広告事 業部 その他 情報収集
CA SRE Technology Map https://www.cyberagent.co.jp/techinfo/info/detail/id=28998 24 サイバーエージェントは創業来、インターネット産業の拡大 とともに事業成長を続けてきました。またそれと同時に、 SRE領域へも注力してきました。SRE Technology
Mapは、サ イバーエージェントのSREチームの取り組みを知ってもらう ことを期待して製作しています。
現状とこれから 2024!!
課題① 文化の属人化 文化が組織ではなく、人に依存してしまっている 26 • 中心となる人物や熱心な協力者が抜けると文化が後退 • やり方や進め方で悩むとスピード感が落ちる • 優先順位の決め方が人に依存してしまう
課題② Observability Telemetryの標準化と柔軟なカスタマイズがしたい • メトリクス、ログ、トレースの集約 • ベンダーへ依存しないTelemetryの実現 • 人に依存しない Observability
の実現 27
取り組み①:オンボーディング強化 ・文化の伝達と時間があればドキュメント化 ・SREs 以外ができることをどんどん増やす 28
取り組み②:オンコール対応改善 ・対応できる特定のメンバーに負荷が偏っているので改善 ・アラートメッセージや Runbook の改善 ・SREs以外でも直感的に対応できるようにする 29
・ポストモーテムを元に改善点がないか確認 ・同じような現象であれば対応できる人数を増やす ・エンジニアが対応せずに済むようなオートヒーリング、 オートリカバリの仕組み導入検討 取り組み③:ポストモーテムの振り返り会 30
まとめ ・目標としていたSREチーム解散はできた ・組織内に信頼性向上の文化を作れた ・社内外の情報がとても役立っている ・人ではなく組織に根付かせて効率的に運用したい 31
ご清聴ありがとうございました! これからも 「ユーザが安心して遊べるサービスを提供する」ために システムとしての信頼性の向上を進めていきます。 32