Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
高信頼IaaSを実現するDevOps / DevOps for Highly Reliable...
Search
kazeburo
April 18, 2023
Technology
1
610
高信頼IaaSを実現するDevOps / DevOps for Highly Reliable IaaS
DevOpsDays Tokyo 2023 2023/04/18 スポンサーセッション
kazeburo
April 18, 2023
Tweet
Share
More Decks by kazeburo
See All by kazeburo
[SRE kaigi 2025] ガバメントクラウドに向けた開発と変化するSRE組織のあり方 / Development for Government Cloud and the Evolving Role of SRE Teams
kazeburo
4
2.2k
[さくらのTech Day] ガバメントクラウド開発と変化と成長する組織 / sakura techday, Develop govcloud and the team
kazeburo
0
5.4k
ガバメントクラウド開発と変化と成長する組織 / Organizational change and growth in developing a government cloud
kazeburo
4
2.5k
DNS水責め攻撃と監視 / DNS water torture attack Monitoring and SLO
kazeburo
5
4.1k
DBやめてみた / DNS water torture attack and countermeasures
kazeburo
13
13k
IaaSにおけるPlatform Engineeringとこれから / Platform engineering in IaaS
kazeburo
2
1.3k
権威DNSサービスへのDDoSと ハイパフォーマンスなベンチマーカ / DNS Pseudo random subdomain attack and High performance Benchmarker
kazeburo
3
5.3k
DNS権威サーバのクラウドサービス向けに行われた攻撃および対策 / DNS Pseudo-Random Subdomain Attack and mitigations
kazeburo
7
13k
sacloudns
kazeburo
2
340
Other Decks in Technology
See All in Technology
個人開発から公式機能へ: PlaywrightとRailsをつなげた3年の軌跡
yusukeiwaki
11
3k
一度 Expo の採用を断念したけど、 再度 Expo の導入を検討している話
ichiki1023
1
170
Data-centric AI入門第6章:Data-centric AIの実践例
x_ttyszk
1
410
開発スピードは上がっている…品質はどうする? スピードと品質を両立させるためのプロダクト開発の進め方とは #DevSumi #DevSumiB / Agile And Quality
nihonbuson
2
3k
Platform Engineeringは自由のめまい
nwiizo
4
2.1k
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
6
57k
JEDAI Meetup! Databricks AI/BI概要
databricksjapan
0
100
「海外登壇」という 選択肢を与えるために 〜Gophers EX
logica0419
0
710
TAMとre:Capセキュリティ編 〜拡張脅威検出デモを添えて〜
fujiihda
2
250
自動テストの世界に、この5年間で起きたこと
autifyhq
10
8.5k
ホワイトボードチャレンジ 説明&実行資料
ichimichi
0
130
エンジニアの育成を支える爆速フィードバック文化
sansantech
PRO
3
1.1k
Featured
See All Featured
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
30
4.6k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.1k
Fontdeck: Realign not Redesign
paulrobertlloyd
83
5.4k
We Have a Design System, Now What?
morganepeng
51
7.4k
Building Adaptive Systems
keathley
40
2.4k
[RailsConf 2023] Rails as a piece of cake
palkan
53
5.2k
Why Our Code Smells
bkeepers
PRO
336
57k
Six Lessons from altMBA
skipperchong
27
3.6k
Unsuck your backbone
ammeep
669
57k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
120k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
33
2.8k
A Philosophy of Restraint
colly
203
16k
Transcript
2023/04/18 さくらインターネット Masahiro Nagano (kazeburo) ⾼信頼 IaaS を実現する DevOps DevOpsDays
Tokyo 2023
Me • ⻑野雅広(ながのまさひろ) • Twitter/GitHub @kazeburo • さくらインターネット株式会社 クラウド事業本部
SRE室 室⻑ • mixi, livedoor(LINE), mercariを経て現職
さくらインターネット企業理念 「やりたいこと」を「できる」に変える さくらインターネットは新たなアイデアの創出に強い熱意と 情熱を持って挑戦するお客様をはじめ、私たちとつながりのある すべての⼈たちのために、未来あるべき姿を想い描きながら ―「やりたいこと」を「できる」に変える―
あらゆるアプローチを“インターネット”を通じて提供します。
サービスラインナップ お客様の幅広いニーズに応えられるよう、クラウドコンピューティングサービスや IoTサービス、ハウジング、回線サービス等を提供してます。 ϗεςΟϯάαʔϏε ϋδϯά ֤छωοτϫʔΫαʔϏε ハウジング ・各サービス間L2接続サービス「ハイブリッド接続」 ・閉域網接続サービス「ダイレクトアクセス」「プライベートリンク
for アルテリア」 ・インターネットVPN⽤ 各種アプライアンス ・AWSとの閉域オプション「AWS接続オプション」 ・IoT向けLTE閉域通信 「さくらのセキュアモバイルコネクト」 ・⽂教向けソリューション「SINET接続サービス」 ・⾃治体向けソリューション「LGWANコネクト」
さくらのクラウド • 2011年のサービス開始から12年⽬ • 皆様のご⽀援のおかげです。 改めて感謝申し上げます
さくらのクラウド • 東京と⽯狩リージョンで展開 • 仮想サーバ/ディスク・ネットワーク などIaaSを提供 • VPCルータ、データベースなどの アプライアンス
• 2拠点での冗⻑化を⾏うロードバラ ンサ、GSLB、DNSアプライアンス • オートスケール機能
さくらインターネットの今後の取り組み お客様のDX化に向けたクラウド利⽤の様々なニーズに応え、 将来的にSaaS・PaaSへサービス提供範囲を拡⼤し、さらなる市場機会を創出
さくらインターネットの今後の取り組み パートナー・アライアンス施策 ヤマト宅急便の集荷依頼や匿名配送⼿続きが、ビジネス⽤の メッセージングアプリ「Slack」上でワンストップで⾏えるア プリケーションを本年2⽉より提供開始 • 社内のリモートワークでの課題をサービス化 • https://www.sakura.ad.jp/information/newsreleases/ 2023/01/30/1968210908/
エレコム株式会社、DXアンテナ株式会社と連携して、クラウ ド録画サービス「Antenna-eye」を2023年3⽉1⽇より提供開 始 • ウェアラブル対応ウェブカメラや監視カメラなどの映像をさくらのクラウド 上に録画、リアルタイム再⽣に対応 • https://www.sakura.ad.jp/information/newsreleases/ 2023/02/28/1968211221/
さくらインターネットの今後の取り組み ガバメントクラウド施策 • ガバメント領域での存在感を強め るため、ガバメント推進室が中⼼ となりリレーションを構築 • ガバメントクラウドをベンチマー クとして「クラウドサービスの価 値を⾼める」
さくらのクラウド 開発の課題 これまでの10年を次の10年に繋ぐ • 既存のインフラ運⽤の維持継続 • IaaS コアシステムを現代化 • クラウドとして価値向上につながる機能拡充、新規サービス開発
全てを満たすには ⾼信頼と変更頻度を両⽴させていく必要
Class SRE implements DevOps SREはDevOpsというinterfaceの実装 • DevOpsは、システム開発者と運⽤者が協⼒し合い、より良いサービスの提供 を⽬指す意識・⽂化 • SREはソフトウェアエンジニアリングを⽤いたDevOpsの実装、役割
• ⾼信頼と変更頻度の両⽴はSREが⽬指すところの⼀つ
クラウド事業本部SRE室 • 2022年7⽉に発⾜。現在メンバーは5名 • SREの取り組みがより評価されることを⽬的に発⾜ • 各部署でDevOps/SREの取り組みはされており、それを交換するものでは なく強化する • ⽬的、期待値のズレをなくす、明確化が最初の課題
• 発⾜と同時にMission, Vision, Value の策定
SRE室のMission, Vision, Value • Mission • クラウドサービスの信頼性を⾼めることにより、お客様や社会のDXをしっかり⽀える • Vision •
社内でのSREの実践を広め、お客様への価値提供を⾏う • さくらのサービスそのものの信頼性向上、それにより価値向上を⽬指す • さくら社員がEnabling SREとして、お客様・社外のサービスの信頼性向上に携わる
SRE室のMission, Vision, Value • Mission • クラウドサービスの信頼性を⾼めることにより、お客様や社会のDXをしっかり⽀える • Vision •
社内でのSREの実践を広め、お客様への価値提供を⾏う • さくらのサービスそのものの信頼性向上、それにより価値向上を⽬指す • さくら社員がEnabling SREとして、お客様・社外のサービスの信頼性向上に携わる
SRE室のMission, Vision, Value • Value • 決め事を作るのではなく、⼀緒に”⼿を動かして”信頼性向上の⽂化をつくる • SRE室のエンジニアだけがSREs(Site Reliability
Engineers)ではない • SRE室のエンジニアが Embedded SRE / Enabling SREとして、SREの取り組みを拡⼤させていく • 開発・運⽤チームとの密なコミュニケーション • 期待値のズレ、お⾒合いを防ぐ • You built it, you run it • 開発/運⽤の両者が共通のゴールをもって、運⽤性に優れたソフトウェアを開発する
SRE室の取り組み
実際のSRE室の取り組み • 社内 Kubernetes 基盤およびクラスター運⽤ • CI/CD 環境の整備 • Enabling
SREとしてのプロジェクト参加 • 読書会
社内における Kubernetes に関わる課題 • クラウド技術とKubernetesは密接に関わる。キャッチアップが必要 • さくらインターネット社内では、いくつかのプロダクトチームが、さくらのク ラウドやデータセンターの物理インフラ上に「各々」Kubernetesクラスタを 構築運⽤ •
運⽤知⾒の分散とギャップ • トラブルシューティングに時間がかかる • アプリケーションを動作させることに集中したい
社内 Kubernetes 基盤の開発 • GitOpsによってクラスタ作成・ スケーリングを可能とする基盤の 開発 • ArgoCDによる⾃動化 •
Cluster APIによるk8sクラスタ のライフサイクル管理 • クラスタのヘルスチェック IUUQTLOPXMFEHFTBLVSBBEKQ
社内での Kubernetes 運⽤の共有 • 社内 Kubernetes 基盤の開発と並⾏して各チームへのヒアリング • 課題の洗い出し、基盤開発へのフィードバック •
SKOG “Sakura Kubernetes Operators Group” の発⾜ • Slack ベースでの情報共有 • オンラインでの勉強会の開催
社内 Kubernetes 基盤の今後 • 「 アプリケーションを動作させることに集中したい」を課題の中⼼にサポート範 囲を広げる • 共有k8s(shared-k8s)の運⽤ •
Namespaceによるマルチテナント • インターネットからのトラフィックを受け付け • ログ管理、メトリクスの組み込み • 堅牢性向上 / 東京・⽯狩での冗⻑
CI/CD環境の整備
CI/CD環境の整備 • 「テストが先か、CIが先か」はCIが「先」 • CI/CDのデファクトスタンダード「GitHub Actions」を当たり前に利⽤可能に
CI/CD環境の課題 • 社内のソースコード管理は GitHub Enterprise Server を利⽤ • Actions登場以前は各々の環境構築してCIを動作 •
GHEでは Self Hosted Runner が必要
Self Hosted Runner の開発導⼊ • 前述の shared-k8s 環境にて ActionsRunnerController を⽤いて構築
• https://github.com/actions-runner-controller/actions-runner-controller • 内製の仮想マシンベースの Runner • ジョブごとに qemu-kvm でVMを起動 • コンテナではなくVMで隔離されているのでセキュリティリスクの低減 • DockerやLinuxカーネルの機能が利⽤可能
CI/CD環境の整備 • 開発体験の向上にむけて • 社内に存在するCIサーバの把握 • ガイドラインの策定 • SRE室主導のプロジェクトでの積極活⽤、事例のアウトプット
Enabling SRE / 開発チームへの参加
Enabling SRE • さくらのクラウドのアプライアンスの開発運⽤に課題 • ISSUEやお客様からの問い合わせの対応に遅延 • 該当アプライアンスを活⽤した他のサービスにも影響 Enabling SREとしてSRE室から2名がチーム参加
Enabling SREの課題 活動から⾒えてきた課題 • SRE室のメンバーは何をするのかの期待値のズレ • 🙅 DevOpsの分離の考え、開発をやってくれる?運⽤を任せられる? • 期待値を合わせ協働できることが必須
Enabling SREとしての活動 • チーム作りから開始 • オンラインでの朝会、定例の開催 • 個⼈に頼らないISSUE、障害対応 • 個⼈を責めないふりかえり
• ドキュメンテーション⽂化 ⼈員の充実も実現でき、チームがより重要に
Enabling SREの今後 • 短期⻑期のロードマップの策定 • チームの⽬線合わせ • オブザーバビリティ向上とその上でのSLI/SLO • お客様への価値提供という本質
• ⾃律的なチームへ
読書会
「LeanとDevOpsの科学」読書会 • 「チームによる開発⼒向上」が課題 • SRE室と開発チームのリーダとで開催 • 1~2章ごとに各⾃読み、そこから得たこと分か らないことを共有 • 次の本を選び継続開催
読書会を通して • 「⾔語/⾔葉」の共通化と⾃社にとっての課題の明確化 • メンバー同⼠の相互理解、信頼感の醸成 • Four Keysなど次のアクションの洗い出し 読書会参加以外のメンバーに どう広げていくか
DevOps/SREによって ⾼信頼IaaSを実現するには
DevOps/SREによって⾼信頼IaaSを実現するには これまでの活動の中から • DevとOps/DevとSREsの期待値を合わせる(合意なき期待の回避) • MVV(Mission, Vision, Value)の定義と発信 • チーム間の⾔語を合わせる
• これらがあって アウトプット / アウトカム が最⼤化される
さくらインターネットの3つのバリュー • 肯定ファースト • リードアンドフォロー • 伝わるまで話そう 繰り返し⾔い続けることで、⼀⼈⼀⼈にバリューが浸透する DevOpsを⽀える創造的な組織⽂化に必須
SAKURA internet ࣾձΛࢧ͑Δ ύϒϦοΫΫϥυΛ Ұॹʹ࡞Γ·ͤΜ͔ʁ Perl, Go, Python
インフラ基盤から フロントエンドまで 採⽤強化中! さくらインターネットではエン ジ ニア採⽤を強化しています さくらインターネットは新たなアイ デ アの創出に強い熱意と情熱を持って挑戦するお客様を は じ め、私たちとつな が りのあるす べ ての⼈たちのために、未来のある べ き姿を想い描きな が ら ―「やりたいこと」を「 で きる」に変える ― あらゆるア プ ローチを “インターネッ ト”を通 じ て提供します。 詳しくはWebサイトにて、カジュアル⾯談もやってます 👉 www.sakura.ad.jp/lp/22engineer/
ご清聴ありがとうございました さくらインターネットのブースにおります 質問などありましたらお気軽に。