Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
クラウド移行を通じた SRE/DevOps の実践 / SRE and DevOps Pra...
Search
mom0tomo
August 28, 2023
Programming
1
680
クラウド移行を通じた SRE/DevOps の実践 / SRE and DevOps Practice in Cloud Migration
ゆるSRE勉強会第一回発表資料です。マッハバイトのクラウド移行を通じた、SRE/DevOpsを実践する取り組みについて具体的に話します。
mom0tomo
August 28, 2023
Tweet
Share
More Decks by mom0tomo
See All by mom0tomo
10年続くコミュニティ運営のコツ
mom0tomo
0
31
「名前のない仕事」にチームで取り組む–WOLとトラッキングツールの活用- / The SRE team's approach to unnamed work
mom0tomo
3
710
golang tokyo go tools
mom0tomo
3
1.3k
最初の言語としてGoを学んだ人から見た Ruby on Rails
mom0tomo
2
660
はじめてみんなで作ったGoのツールの話
mom0tomo
0
170
人材業界 中の人が語る 若手エンジニアの転職活動
mom0tomo
0
540
Go-ビギナーズ - よくある3つの質問
mom0tomo
2
140
Go徒然日記
mom0tomo
0
1.5k
LTLovers meetup 1st - the core of "your" love -
mom0tomo
1
780
Other Decks in Programming
See All in Programming
Rで始めるML・LLM活用入門
wakamatsu_takumu
0
190
go directiveを最新にしすぎないで欲しい話──あるいは、Go 1.26からgo mod initで作られるgo directiveの値が変わる話 / Go 1.26 リリースパーティ
arthur1
2
570
CDIの誤解しがちな仕様とその対処TIPS
futokiyo
0
220
RAGでハマりがちな"Excelの罠"を、データの構造化で突破する
harumiweb
9
2.9k
AI活用のコスパを最大化する方法
ochtum
0
230
The free-lunch guide to idea circularity
hollycummins
0
270
CSC307 Lecture 15
javiergs
PRO
0
260
20260313 - Grafana & Friends Taipei #1 - Kubernetes v1.36 的開發雜記:那些困在 Alpha 加護病房太久的 Metrics
tico88612
0
220
技術検証結果の整理と解析をAIに任せよう!
keisukeikeda
0
130
CSC307 Lecture 14
javiergs
PRO
0
480
守る「だけ」の優しいEMを抜けて、 事業とチームを両方見る視点を身につけた話
maroon8021
3
1.1k
RubyとGoでゼロから作る証券システム: 高信頼性が求められるシステムのコードの外側にある設計と運用のリアル
free_world21
0
310
Featured
See All Featured
Skip the Path - Find Your Career Trail
mkilby
1
85
GraphQLとの向き合い方2022年版
quramy
50
14k
Odyssey Design
rkendrick25
PRO
2
550
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
240
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
200
Navigating Team Friction
lara
192
16k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.4k
Six Lessons from altMBA
skipperchong
29
4.2k
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Are puppies a ranking factor?
jonoalderson
1
3.1k
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
320
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
Transcript
クラウド移行を通じた SRE/DevOps の実践
バックエンドエンジニア → インフラエンジニア、 SREs 現在はマッハバイト インフラ担当。 趣味: 限界まで安い手段で海外旅行に行くこと mom0tomo 渡辺もも
テクノロジカルマーケティング部 インフラストラクチャーグループ Copyright © Livesense Inc.
About Livesense Invent The Next Common. Copyright © Livesense Inc.
Livesenseの事業 Copyright © Livesense Inc.
Copyright © Livesense Inc. • 社員数 ◦ 正社員 214名(2023年6月30日現在) •
エンジニア社員数 ◦ 全体 63名 正社員 40名 ◦ 正社員だけで見るとエンジニア職が1/5を 占める 社員数・組織規模
インフラグループ Copyright © Livesense Inc. • 事業部に属さない全社横断組織 • 6人+兼務2人 •
各事業部に対し、1-2人が窓口担当になる (DevOps/SRE的な動きもする) • リブセンス全体で利用する基盤・プラット フォームも管轄する
本日話すこと 1 クラウド移行の背景 2 移行前の課題 3 移行で改善できたこと 4 今後の課題 Copyright
© Livesense Inc.
クラウド移行の背景 Copyright © Livesense Inc.
クラウド移行の背景 フルリモートワーク化からのオフィス移転 • 創業期から契約しているデータセンターがある ◦ 創業当時からのサービスであるマッハバイト(旧ジョブセンス)では、ほとんどのシステムがオンプ レで運用されてきた • 新しい事業はクラウドで運用されているものも多い ◦
knew(マッチングサービス)、 batonn(面接最適化サービス)、 IESHIL(不動産事業)などは最初か らクラウド上で運用されている ◦ 転職会議・転職ドラフトもほぼオンプレから AWSに移行済み • コロナ禍で全社フルリモートワーク化し、オフィスを WeWorkに移転した ◦ オフィス内のサーバールームで運用してきた開発環境を急遽クラウドに移行した ◦ これを契機にクラウド移行の機運が加速した • 2023年末をもってクラウド移行が完了する予定 Copyright © Livesense Inc.
クラウド移行の背景 Copyright © Livesense Inc. https://made.livesense.co.jp/entry/2022/12/21/083000
移行前の課題 Copyright © Livesense Inc.
• 開発(アプリケーションエンジニア)と運用(インフラエンジニア)の間に壁があった • 権限の壁 ◦ オンプレミスのサーバーの設定変更はインフラチームに作業依頼が必要 ▪ sudo権限がないとインフラの設定変更ができない ▪ VM構築(サーバー準備)はインフラの担当
etc.. ◦ アプリケーション側の変更はアプリケーション開発チームに作業依頼が必要 ▪ リポジトリがたくさんあってデプロイ方法も統一されておらず複雑 ▪ 一部システムは監査対応のための特別な承認フローがある etc… • コミュニケーションの壁 ◦ プロジェクト・チームごとに Slackチャンネルが分かれていて気軽に声をかけづらい ◦ 隔週の定例が正式なコミュニケーションの場だが、シャンシャンと終わりがち 移行前の課題 「開発」と「運用」の分断 Copyright © Livesense Inc.
• サービスの信頼性への責任が曖昧になる ◦ 共用インフラ基盤の調査はインフラエンジニアが担当する ▪ 開発エンジニアが直接 L7LBのログを見られない etc. ◦ 監視・モニタリングサービスの導入はインフラチームが担当する
▪ 何かアラートがなったとき、設定した人(インフラチーム)が対応しがち • 作業待ちが発生してデリバリーに時間がかかる ◦ 「インフラチームがVM構築終わったらデプロイができる」(開発エンジニアは自分でサーバー構築 できない)etc. • アプリケーションの本質的な改善が進まない ◦ アプリケーションのコードを直せば解決する問題でも、リソースを増やすなどインフラ側でなんとか してしまい、保守性が下がる 移行前の課題 分断による悪影響 Copyright © Livesense Inc.
移行で改善できたこと Copyright © Livesense Inc.
• 権限を見直す ◦ インフラエンジニアしかサーバの rootを取れない→AWSのIAMグループを利用して適切な権限を 付与する • コミュニケーションチャネルを見直す ◦ Slackチャンネルを整理、統合してコミュニケーションの活性化を図る
◦ Work Out Loudの文化を伝える ▪ インフラチームEMの方がマッハバイトの EMを兼務してくれたことでスムーズに導入された • 信頼性向上に取り組むための土台を作る ◦ 共同で勉強会を開催してインフラ・モニタリングに関する知識を伝達する ▪ AWS勉強会、Datadog勉強会 移行で改善できたこと SRE/DevOpsの実践 Copyright © Livesense Inc.
• 複雑なリリースフローを改善する ◦ GitHub Actionsを利用してPRベースのデプロイワークフローを組む ◦ GitHubのリリース機能を利用し、リリースフローを省略する • IaCを徹底する ◦
インフラ構成のコードをリポジトリにまとめ、開発エンジニアも contributeできるようにする ▪ 開発エンジニアもレビューを受けて自由にインフラの構成変更ができる • モブプロでクラウド移行を加速する ◦ 協働してCI/CDワークフローを整備する ◦ 移行で邪魔になるデッドコードの削除、アーキテクチャの変更などその場で話し合って素早い意思 決定を行う 移行で改善できたこと SRE/DevOpsの実践 Copyright © Livesense Inc.
→ “越境文化”はSREっぽい! https://recruit.livesense.co.jp/lp/engineer/overview Copyright © Livesense Inc.
今後の課題 Copyright © Livesense Inc.
今後の課題 これからやりたいこと • サービスレベル(SLI/SLO)の策定と実践 ◦ 足元の整備中 ▪ Datadogを活用する ▪ エラーバジェットを定義する
• 誰でも障害対応できる体制づくり ◦ メトリクス・モニター・ダッシュボードのノウハウを共有する ◦ 障害対応を振り返り、ベテランの動きを学ぶ ◦ 詳しくないシステムで障害が起こったときに「シャドー」になる Copyright © Livesense Inc.
Copyright © Livesense Inc. • エンジニアブログ ◦ https://made.livesense.co.jp/ • Livesense
Engineering Handbook ◦ https://livesense-inc.gitbook.io/livesense-e ngineering-handbook/ エンジニアによる発信の ご紹介
クラウド移行の取り組みも発信中 https://made.livesense.co.jp/entry/2023/06/27/080000 https://made.livesense.co.jp/entry/2023/06/14/080000 https://made.livesense.co.jp/entry/2023/08/25/083000 Copyright © Livesense Inc.
None