Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SREチームの立ち上げから5年間とこれから
Search
CyberAgent SGE Engineer
January 16, 2024
Technology
0
1.6k
SREチームの立ち上げから5年間とこれから
「SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT」の発表資料です。
https://findy.connpass.com/event/305677/
CyberAgent SGE Engineer
January 16, 2024
Tweet
Share
More Decks by CyberAgent SGE Engineer
See All by CyberAgent SGE Engineer
サムザップにおけるNotionの 活用事例とPHPでのNotionAPIを利用した仕組み構築の紹介
sgeengineer
0
1.8k
Laravel OctaneをどうしてもPharで運用したい話
sgeengineer
2
2.3k
大規模Unityゲーム開発の設計事例 〜ドメイン駆動設計とDIコンテナを導入した一年を振り返る〜 / cedec2021-ddd
sgeengineer
2
13k
ロボットを動かすビジュアルプログラミングでできることはPHPでもできる!
sgeengineer
0
1.5k
PHP8版!Swooleのフレームワークを比べてみた
sgeengineer
1
2.5k
「戦国炎舞 -KIZNA-」で行ったAWSのコスト最適化の話
sgeengineer
0
1.7k
AirtestとPocoとOpenSTFによるUnity製スマートフォン向けゲームの実機自動テスト環境構築とその利用方法
sgeengineer
0
4.8k
PHPでgRPCって どこまでいけるの?
sgeengineer
0
4.7k
エンジニアの文化の作り方 〜社内Podcastのススメ〜
sgeengineer
1
3.8k
Other Decks in Technology
See All in Technology
TSのコードをRustで書き直した話
askua
2
170
Goで実践するBFP
hiroyaterui
1
120
PaaSの歴史と、 アプリケーションプラットフォームのこれから
jacopen
7
1.5k
メンバーがオーナーシップを発揮しやすいチームづくり
ham0215
2
140
CDKのコードレビューを楽にするパッケージcdk-mentorを作ってみた/cdk-mentor
tomoki10
0
210
深層学習と3Dキャプチャ・3Dモデル生成(土木学会応用力学委員会 応用数理・AIセミナー)
pfn
PRO
0
460
EMConf JP の楽しみ方 / How to enjoy EMConf JP
pauli
2
150
データ基盤におけるIaCの重要性とその運用
mtpooh
4
530
ゼロからわかる!!AWSの構成図を書いてみようワークショップ 問題&解答解説 #デッカイギ #羽田デッカイギおつ
_mossann_t
0
1.5k
【Oracle Cloud ウェビナー】2025年のセキュリティ脅威を読み解く:リスクに備えるためのレジリエンスとデータ保護
oracle4engineer
PRO
1
100
完全自律型AIエージェントとAgentic Workflow〜ワークフロー構築という現実解
pharma_x_tech
0
350
JAWS-UG20250116_iOSアプリエンジニアがAWSreInventに行ってきた(真面目編)
totokit4
0
140
Featured
See All Featured
Learning to Love Humans: Emotional Interface Design
aarron
274
40k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.1k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.4k
BBQ
matthewcrist
85
9.4k
Become a Pro
speakerdeck
PRO
26
5.1k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
127
18k
Java REST API Framework Comparison - PWX 2021
mraible
28
8.3k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
45
2.3k
It's Worth the Effort
3n
183
28k
Site-Speed That Sticks
csswizardry
3
270
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
Transcript
SREチームの立ち上げから5年間 とこれから Senior Service Reliability Engineer 吉岡 賢
SREチームの立ち上げから5年間 とこれから Senior Service Reliability Engineer 吉岡 賢
会社紹介 サムザップってどんな会社?
ゲーム・エンターテイメント事業部(SGE)について 子会社制をとっており、 ゲーム・エンターテイメント事業に 携わる10社の子会社が 所属しています。 ゲーム・エンターテイメント事業部(SGE) 4
Sumzapの代表的なタイトル 会社紹介 会社概要 ・2009年5月設立 ・スマホゲームアプリの企画 / 開発 / 運用 5
吉岡 賢 Yoshioka Suguru 自己紹介 2016年度 サイバーエージェント新卒入社。 サムザップに出向し、主力サービスのオンプレミスか ら AWS
への移設において設計、運用、開発に従事。 エンジニア統括組織のメンバーやエンジニアの 採用育成責任者などを歴任。 現在は、Enabling SRE として運用改善と文化作りに 力を入れている。 好きなAWSサービスは Amazon Route53 プライベートでは.... • 妻と猫、日本酒をこよなく愛するクッキーモンスター • SRE NEXT 2023 ではコアスタッフしていました! 6
それぞれの時期における課題と成果など • SREチーム立ち上げ以前 • SREチーム立ち上げ期 • SREチーム解散! • SREチーム解散後(現状とこれから) 今日のお話
7
SREチーム立ち上げ以前 〜 2018年4月以前
インフラチーム体制イメージ図 9 ・サービスインフラチームから各プロジェクトのインフラを担当する ・担当がおり、それぞれがプロジェクトを把握する
様々な思い 10 開発側にもインフラを把握してほしい 信頼性向上の対象を継続的に観測する方法と指標は? キャパシティプランニングの指標が欲しい ローカル環境の充実化 運用タスクに忙殺されてしまう パブリッククラウド使いたい 技術選定の理由や議論を知りたい 共通ユーザなどセキュリティ面の見直ししたい
オンボーディング強化したい インフラ予算を削減して他に投資したい タスクが属人化している気がする
SREチームを立ち上げる目的 11 チームの役割に合わせて名称変更 インフラチーム = サーバの保守など運用 というイメージが強い サービスの信頼性を向上させることが中心で、今後も継続して強化していくと いう意識を持つため 社内の信頼性に関する意識を向上させる
サムザップが提供するサービスの信頼性を向上するというチームの役割を 周知、浸透させることで会社全体を巻き込みやすくする サービスの信頼性を向上する業務ならば、社内を巻き込みながらなんでも行 うという能動的な業務スタイルを取るチームがサムザップに誕生しました!
SREチーム立ち上げ 2018年4月〜
SREチーム体制イメージ図 13 ・SREチームから各プロジェクトへ入り、プロジェクトと一緒に進める ・プロジェクト間、グループ内での情報共有に努める
立ち上げてまずやったこと 14 1. チーム合宿 チームの目標や行動指針、メンバーの相互理解のための時間を作った → お互いの考えや人間性などを知ることができ、メンバーの意外な一面を発見した → 良いところを再確認したりすることができた →
話しやすく、相談しやすい雰囲気とチームビルディングに絶大な効果 2. 行動指針の制定 チームで業務を行う際の行動指針を制定した
SREチームの行動指針 15 UXファースト - 対ユーザ向けのサービスを運営していることを忘れずにシステム面でもユーザの体験を 第一に考える(お問い合わせのシステムや、ゲームのレスポンスなど) オープンなチームであれ - クローズドなイメージが強いSREチームだからこそ情報は常にオープンに。 プロジェクトに寄り添い、現場と融合するチームを目指す
その技術はイケているか? - 最新の技術動向をとらえ、今あるシステムを常に見直し、導入コストや メリット・デメリットを考え抜く 1人プレイ禁止 - SGEエンジニア行動指針である「エンジン」に準拠。1人で考え行動するのではなく、組 織に所属して働いている意味を考える ムチャをしない - 行動を起こす前にスケジュールを立て、常に最悪の状態を想定し冷静であれ 感謝されるチームであれ - 多くのチームと関わりシステマチックな解決に導く。また他チームの方に もチーム価値を正しく知ってもらうように努める
主力ゲームをオンプレミスからAWSへ 16 とあるSREチームの挑戦 6年目の大規模ゲームを AWS移設後に安定運用するための技術と今後の展望 AWS Summit 2019 登壇資料
得られた成果 17
この頃に整備したもの 技術および業務の標準化 ドキュメントの場所、内容を規定 → 技術選定に関するドキュメントなどを作成 → 新しいプロジェクトで何を決めるか、何故選んだのか 技術や業務の標準化 → プロジェクトでいつ頃何が必要になるのか
→ 負荷試験、ログ管理、分析基盤に関するドキュメント → 構成管理、ツールの標準化 18 得意なメンバーが ガンガン進めてくれた
SREチーム解散! 2021年XX月〜
SREチーム解散後体制イメージ図 20 ・各プロジェクトに所属して、SREを実践する中心メンバーとして活動する ・各プロジェクトの状況や課題を共有したり、相談するMTGや横軸活動を行う
Embedded SRE 21 メリット • プロジェクトメンバーとの距離が近くなる • 課題の把握がしやすくなる • サービス開発とインフラ両方に深く関われる
デメリット • SREs がやってくれるよねというよくない安心感 ※ 巻き込みと情報共有がとても重要に
課題 プロジェクト内に閉じこもりがち → 情報共有:社内でのSREs連携だけでなく、グループ内も → 課題、優先順位:プロジェクトと会社のバランス → 市場のSRE: どんなことをして何を課題に思っているのか
22
ゲーム・エンターテイメント事業部(SGE) 23 メディア事業部 インターネット広告事 業部 その他 情報収集
CA SRE Technology Map https://www.cyberagent.co.jp/techinfo/info/detail/id=28998 24 サイバーエージェントは創業来、インターネット産業の拡大 とともに事業成長を続けてきました。またそれと同時に、 SRE領域へも注力してきました。SRE Technology
Mapは、サ イバーエージェントのSREチームの取り組みを知ってもらう ことを期待して製作しています。
現状とこれから 2024!!
課題① 文化の属人化 文化が組織ではなく、人に依存してしまっている 26 • 中心となる人物や熱心な協力者が抜けると文化が後退 • やり方や進め方で悩むとスピード感が落ちる • 優先順位の決め方が人に依存してしまう
課題② Observability Telemetryの標準化と柔軟なカスタマイズがしたい • メトリクス、ログ、トレースの集約 • ベンダーへ依存しないTelemetryの実現 • 人に依存しない Observability
の実現 27
取り組み①:オンボーディング強化 ・文化の伝達と時間があればドキュメント化 ・SREs 以外ができることをどんどん増やす 28
取り組み②:オンコール対応改善 ・対応できる特定のメンバーに負荷が偏っているので改善 ・アラートメッセージや Runbook の改善 ・SREs以外でも直感的に対応できるようにする 29
・ポストモーテムを元に改善点がないか確認 ・同じような現象であれば対応できる人数を増やす ・エンジニアが対応せずに済むようなオートヒーリング、 オートリカバリの仕組み導入検討 取り組み③:ポストモーテムの振り返り会 30
まとめ ・目標としていたSREチーム解散はできた ・組織内に信頼性向上の文化を作れた ・社内外の情報がとても役立っている ・人ではなく組織に根付かせて効率的に運用したい 31
ご清聴ありがとうございました! これからも 「ユーザが安心して遊べるサービスを提供する」ために システムとしての信頼性の向上を進めていきます。 32