Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

Reliability Engineering at Studist

katsuhisa_
December 05, 2024

Reliability Engineering at Studist

https://globis.connpass.com/event/337033/ で話した資料です。
スタディストにおける SRE / CRE / その他開発組織内の信頼性にまつわる活動を紹介しつつ、チームの価値観やテーマについてご紹介します。

katsuhisa_

December 05, 2024
Tweet

More Decks by katsuhisa_

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 • 北野 勝久 / Katsuhisa Kitano • X(Twitter) ID:

    @katsuhisa__ • 株式会社スタディスト 執⾏役員 VPoE / SRE Engineering Manager • ⼀般社団法⼈ SRE NEXT 代表理事 • SRE NEXT Founder
  2. 発表のゴール • スタディスト開発本部の信頼性を制御する活動の 2024年版スナップショットを残す • 今のスタディストの Reliability Engineering を 記録することに重点をおくため、

    持ち帰っていただきたい Tips があるわけではない • 組織の規模やフェーズ、周辺チームとの関わりで、 SREingのあり⽅は違うよね、を再確認する
  3. たいへんだった • インフラ運⽤を ⼿動Opsでがんばる エンジニアチーム • SREを組織化し、 ソフトウェアで運⽤を ⾃動化する継続 ◦

    SLI/SLO ◦ Toil削減 ◦ 信頼性を制御する 感覚を得る https://speakerdeck.com/ katsuhisa91/sre-taizen-studist-1 マシンイメージが 秘伝のタレ化!!! なぜかRDSが 最強スペック アラート すごいくるけど なんでか分からん!
  4. 徐々に、さらなるスケーラビリティや開発者体験に集中できるように • Platform Engineering 的アプローチを強化 • Infra CI/CD 強化 •

    コンテナ基盤づくり • ブランチごと 検証環境の⾃動化 https://speakerdeck.com/ katsuhisa91/self-service-and -silos-and-organizational- structure
  5. 徐々に、さらなるスケーラビリティや開発者体験に集中できるように • Platform Engineering 的アプローチを強化 • Infra CI/CD 強化 •

    コンテナ基盤づくり • ブランチごと 検証環境の⾃動化 https://speakerdeck.com/ katsuhisa91/self-service-and -silos-and-organizational- structure SREだけでなく、 CRE組織ができた🎉 歴史的経緯で分散していた インフラ基盤を統一できた🚀 AWS / k8s 開発運用の 基盤が整った🚀
  6. • 体制 ◦ プロダクト別のエンジニアリングチーム + 横断的なSREチーム ◦ 主⼒事業の Teachme Biz

    配下には複数チームあり、 その中に前述のCREチームもある • 特徴 ◦ SREの⼈数 = ex-SREの⼈数 ▪ SREで仕事をした後に、 いわゆる Stream-aligned team に異動している ◦ チーム横断のエラーを⾒る会で プロダクト状況を継続確認する⽂化がある スタディストのReliability Engineeringの体制と特徴
  7. • 信頼性に関わることはぜんぶやる ◦ 業務範囲的には Platform Engineering / CCoE / DX

    (Developer Experience) 領域がごちゃまぜ ◦ 昨今よく聞く、認知負荷の低減に関しては 部分的に逆⾏している実感もある • 信頼性にまつわるエンジニアリングをする + そのためのツールセットやインフラをつくる + ツールセットの開発体験を良い感じにする ◦ SRE evangelist 的な活動も SREチームのおしごと‧関⼼事項
  8. • ALL STAR SAAS CONFERENCE 2024 • k8sのJob管理ライブラリ • Rails

    World の動画 • モジュラモノリス • LGWAN環境での動作検証 • データ分析基盤のための ツール導⼊ • テーブルのannotate管理 参考: スタディストSREチームの先週(2024/11/25週)の話題 • re:Inventに⼊らなかった 直近のAWSアップデート • CI共通化や改善 • Datadogの使い⽅ • ベクトル検索 • Design Doc を書くタイミング • 忘年会 • 部屋の加湿 • ⽝が⼤事なものをくわえて持っ ていって焦った話 ⽔曜⽇に45分、⾦曜⽇に30分つかい、 お互いの取り組み内容や疑問点、技術的な最新情報を共有している
  9. いっしょに⼀つの作業をやる • チームで集まって、何か⼀つの作業をやる時間が 定期的にある • 具体的にやっていること ◦ Renovate がつくった PR

    を棚卸しする会 ◦ konmari day(負債解消⽇)で、 ⼀つの負債をみんなで協⼒して倒す ◦ インフラコストをいっしょにみて、傾向を考察する時間
  10. • 昔はSREからの「⽀援」っぽいなと思っていたが、 直近の状況はどちらかといえば、ただのお互い様って感じ • 今⽇紹介したように Reliability Engineering にまつわる テーマは開発組織のあちこちで実践されていて、 たまたまこっちのチームでやってることと、

    あっちのチームでやってることがあるだけ • ex-SRE がふらっと現SREのミーティングにあそびにくるが、 話しながら「頼り、頼られ」をやってる感覚もある チーム間で「頼り、頼られ」をやる
  11. これまでとこれから • 今のスタディストSREの存在意義は、 信頼性にまつわる組織の基準線であること ◦ 他のチームも信頼性制御にまつわる活動はやる • Opsっぽい⼀部の業務が ex-SRE +

    SRE に残っているのでうまく組織内に広げる • Reliability Engineering を実践するチームをどう拡⼤する? (分割する?)は、実践した結果をいつか発表したい