Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SREチームの立ち上げから5年間とこれから
Search
CyberAgent SGE Engineer
January 16, 2024
Technology
0
1.5k
SREチームの立ち上げから5年間とこれから
「SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT」の発表資料です。
https://findy.connpass.com/event/305677/
CyberAgent SGE Engineer
January 16, 2024
Tweet
Share
More Decks by CyberAgent SGE Engineer
See All by CyberAgent SGE Engineer
サムザップにおけるNotionの 活用事例とPHPでのNotionAPIを利用した仕組み構築の紹介
sgeengineer
0
1.7k
Laravel OctaneをどうしてもPharで運用したい話
sgeengineer
2
2.2k
大規模Unityゲーム開発の設計事例 〜ドメイン駆動設計とDIコンテナを導入した一年を振り返る〜 / cedec2021-ddd
sgeengineer
2
13k
ロボットを動かすビジュアルプログラミングでできることはPHPでもできる!
sgeengineer
0
1.5k
PHP8版!Swooleのフレームワークを比べてみた
sgeengineer
1
2.4k
「戦国炎舞 -KIZNA-」で行ったAWSのコスト最適化の話
sgeengineer
0
1.6k
AirtestとPocoとOpenSTFによるUnity製スマートフォン向けゲームの実機自動テスト環境構築とその利用方法
sgeengineer
0
4.7k
PHPでgRPCって どこまでいけるの?
sgeengineer
0
4.6k
エンジニアの文化の作り方 〜社内Podcastのススメ〜
sgeengineer
1
3.8k
Other Decks in Technology
See All in Technology
組織に自動テストを書く文化を根付かせる戦略(2024冬版) / Building Automated Test Culture 2024 Winter Edition
twada
PRO
17
4.4k
AI時代のデータセンターネットワーク
lycorptech_jp
PRO
1
290
プロダクト開発を加速させるためのQA文化の築き方 / How to build QA culture to accelerate product development
mii3king
1
270
権威ドキュメントで振り返る2024 #年忘れセキュリティ2024
hirotomotaguchi
2
750
WACATE2024冬セッション資料(ユーザビリティ)
scarletplover
0
210
私なりのAIのご紹介 [2024年版]
qt_luigi
1
120
podman_update_2024-12
orimanabu
1
270
ゼロから創る横断SREチーム 挑戦と進化の軌跡
rvirus0817
2
270
Opcodeを読んでいたら何故かphp-srcを読んでいた話
murashotaro
0
260
日本版とグローバル版のモバイルアプリ統合の開発の裏側と今後の展望
miichan
1
130
サービスでLLMを採用したばっかりに振り回され続けたこの一年のあれやこれや
segavvy
2
460
OpenAIの蒸留機能(Model Distillation)を使用して運用中のLLMのコストを削減する取り組み
pharma_x_tech
4
560
Featured
See All Featured
Designing for humans not robots
tammielis
250
25k
Being A Developer After 40
akosma
87
590k
Keith and Marios Guide to Fast Websites
keithpitt
410
22k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
6.9k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
26
1.9k
4 Signs Your Business is Dying
shpigford
181
21k
Git: the NoSQL Database
bkeepers
PRO
427
64k
Reflections from 52 weeks, 52 projects
jeffersonlam
347
20k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
28
4.4k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
2
170
Done Done
chrislema
181
16k
Transcript
SREチームの立ち上げから5年間 とこれから Senior Service Reliability Engineer 吉岡 賢
SREチームの立ち上げから5年間 とこれから Senior Service Reliability Engineer 吉岡 賢
会社紹介 サムザップってどんな会社?
ゲーム・エンターテイメント事業部(SGE)について 子会社制をとっており、 ゲーム・エンターテイメント事業に 携わる10社の子会社が 所属しています。 ゲーム・エンターテイメント事業部(SGE) 4
Sumzapの代表的なタイトル 会社紹介 会社概要 ・2009年5月設立 ・スマホゲームアプリの企画 / 開発 / 運用 5
吉岡 賢 Yoshioka Suguru 自己紹介 2016年度 サイバーエージェント新卒入社。 サムザップに出向し、主力サービスのオンプレミスか ら AWS
への移設において設計、運用、開発に従事。 エンジニア統括組織のメンバーやエンジニアの 採用育成責任者などを歴任。 現在は、Enabling SRE として運用改善と文化作りに 力を入れている。 好きなAWSサービスは Amazon Route53 プライベートでは.... • 妻と猫、日本酒をこよなく愛するクッキーモンスター • SRE NEXT 2023 ではコアスタッフしていました! 6
それぞれの時期における課題と成果など • SREチーム立ち上げ以前 • SREチーム立ち上げ期 • SREチーム解散! • SREチーム解散後(現状とこれから) 今日のお話
7
SREチーム立ち上げ以前 〜 2018年4月以前
インフラチーム体制イメージ図 9 ・サービスインフラチームから各プロジェクトのインフラを担当する ・担当がおり、それぞれがプロジェクトを把握する
様々な思い 10 開発側にもインフラを把握してほしい 信頼性向上の対象を継続的に観測する方法と指標は? キャパシティプランニングの指標が欲しい ローカル環境の充実化 運用タスクに忙殺されてしまう パブリッククラウド使いたい 技術選定の理由や議論を知りたい 共通ユーザなどセキュリティ面の見直ししたい
オンボーディング強化したい インフラ予算を削減して他に投資したい タスクが属人化している気がする
SREチームを立ち上げる目的 11 チームの役割に合わせて名称変更 インフラチーム = サーバの保守など運用 というイメージが強い サービスの信頼性を向上させることが中心で、今後も継続して強化していくと いう意識を持つため 社内の信頼性に関する意識を向上させる
サムザップが提供するサービスの信頼性を向上するというチームの役割を 周知、浸透させることで会社全体を巻き込みやすくする サービスの信頼性を向上する業務ならば、社内を巻き込みながらなんでも行 うという能動的な業務スタイルを取るチームがサムザップに誕生しました!
SREチーム立ち上げ 2018年4月〜
SREチーム体制イメージ図 13 ・SREチームから各プロジェクトへ入り、プロジェクトと一緒に進める ・プロジェクト間、グループ内での情報共有に努める
立ち上げてまずやったこと 14 1. チーム合宿 チームの目標や行動指針、メンバーの相互理解のための時間を作った → お互いの考えや人間性などを知ることができ、メンバーの意外な一面を発見した → 良いところを再確認したりすることができた →
話しやすく、相談しやすい雰囲気とチームビルディングに絶大な効果 2. 行動指針の制定 チームで業務を行う際の行動指針を制定した
SREチームの行動指針 15 UXファースト - 対ユーザ向けのサービスを運営していることを忘れずにシステム面でもユーザの体験を 第一に考える(お問い合わせのシステムや、ゲームのレスポンスなど) オープンなチームであれ - クローズドなイメージが強いSREチームだからこそ情報は常にオープンに。 プロジェクトに寄り添い、現場と融合するチームを目指す
その技術はイケているか? - 最新の技術動向をとらえ、今あるシステムを常に見直し、導入コストや メリット・デメリットを考え抜く 1人プレイ禁止 - SGEエンジニア行動指針である「エンジン」に準拠。1人で考え行動するのではなく、組 織に所属して働いている意味を考える ムチャをしない - 行動を起こす前にスケジュールを立て、常に最悪の状態を想定し冷静であれ 感謝されるチームであれ - 多くのチームと関わりシステマチックな解決に導く。また他チームの方に もチーム価値を正しく知ってもらうように努める
主力ゲームをオンプレミスからAWSへ 16 とあるSREチームの挑戦 6年目の大規模ゲームを AWS移設後に安定運用するための技術と今後の展望 AWS Summit 2019 登壇資料
得られた成果 17
この頃に整備したもの 技術および業務の標準化 ドキュメントの場所、内容を規定 → 技術選定に関するドキュメントなどを作成 → 新しいプロジェクトで何を決めるか、何故選んだのか 技術や業務の標準化 → プロジェクトでいつ頃何が必要になるのか
→ 負荷試験、ログ管理、分析基盤に関するドキュメント → 構成管理、ツールの標準化 18 得意なメンバーが ガンガン進めてくれた
SREチーム解散! 2021年XX月〜
SREチーム解散後体制イメージ図 20 ・各プロジェクトに所属して、SREを実践する中心メンバーとして活動する ・各プロジェクトの状況や課題を共有したり、相談するMTGや横軸活動を行う
Embedded SRE 21 メリット • プロジェクトメンバーとの距離が近くなる • 課題の把握がしやすくなる • サービス開発とインフラ両方に深く関われる
デメリット • SREs がやってくれるよねというよくない安心感 ※ 巻き込みと情報共有がとても重要に
課題 プロジェクト内に閉じこもりがち → 情報共有:社内でのSREs連携だけでなく、グループ内も → 課題、優先順位:プロジェクトと会社のバランス → 市場のSRE: どんなことをして何を課題に思っているのか
22
ゲーム・エンターテイメント事業部(SGE) 23 メディア事業部 インターネット広告事 業部 その他 情報収集
CA SRE Technology Map https://www.cyberagent.co.jp/techinfo/info/detail/id=28998 24 サイバーエージェントは創業来、インターネット産業の拡大 とともに事業成長を続けてきました。またそれと同時に、 SRE領域へも注力してきました。SRE Technology
Mapは、サ イバーエージェントのSREチームの取り組みを知ってもらう ことを期待して製作しています。
現状とこれから 2024!!
課題① 文化の属人化 文化が組織ではなく、人に依存してしまっている 26 • 中心となる人物や熱心な協力者が抜けると文化が後退 • やり方や進め方で悩むとスピード感が落ちる • 優先順位の決め方が人に依存してしまう
課題② Observability Telemetryの標準化と柔軟なカスタマイズがしたい • メトリクス、ログ、トレースの集約 • ベンダーへ依存しないTelemetryの実現 • 人に依存しない Observability
の実現 27
取り組み①:オンボーディング強化 ・文化の伝達と時間があればドキュメント化 ・SREs 以外ができることをどんどん増やす 28
取り組み②:オンコール対応改善 ・対応できる特定のメンバーに負荷が偏っているので改善 ・アラートメッセージや Runbook の改善 ・SREs以外でも直感的に対応できるようにする 29
・ポストモーテムを元に改善点がないか確認 ・同じような現象であれば対応できる人数を増やす ・エンジニアが対応せずに済むようなオートヒーリング、 オートリカバリの仕組み導入検討 取り組み③:ポストモーテムの振り返り会 30
まとめ ・目標としていたSREチーム解散はできた ・組織内に信頼性向上の文化を作れた ・社内外の情報がとても役立っている ・人ではなく組織に根付かせて効率的に運用したい 31
ご清聴ありがとうございました! これからも 「ユーザが安心して遊べるサービスを提供する」ために システムとしての信頼性の向上を進めていきます。 32