Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ゆるSRE勉強会 #8 組織的にSREが始まる中で意識したこと
Search
abnoumaru
November 29, 2024
Technology
2
1.7k
ゆるSRE勉強会 #8 組織的にSREが始まる中で意識したこと
ゆるSRE勉強会 #8 で話したときの資料です
https://yuru-sre.connpass.com/event/332731/
abnoumaru
November 29, 2024
Tweet
Share
More Decks by abnoumaru
See All by abnoumaru
IVRyエンジニア忘年LT大会2024 クリティカルユーザージャーニーの整理
abnoumaru
0
250
3-shake SRE Tech Talk #10 LLMのO11yに触れる
abnoumaru
2
11k
マイクロサービスの現場からプラットフォームエンジニアリングの可能性を探る!
abnoumaru
2
10k
SLOいつ決めましょう?
abnoumaru
5
2.4k
あなたらしくSRE(公開用)
abnoumaru
5
7.8k
SRE Lounge 20180117
abnoumaru
0
6.6k
IDCFクラウドを使ってどこまでチューニングできるか試してみた
abnoumaru
0
220
AWS認定ソリューションアーキテクトを受けた話
abnoumaru
1
1.9k
Other Decks in Technology
See All in Technology
Moved to https://speakerdeck.com/toshihue/presales-engineer-career-bridging-tech-biz-ja
toshihue
2
740
Developer Summit 2025 [14-D-1] Yuki Hattori
yuhattor
19
6.2k
Oracle Cloud Infrastructure:2025年2月度サービス・アップデート
oracle4engineer
PRO
1
210
Building Products in the LLM Era
ymatsuwitter
10
5.4k
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
6
57k
エンジニアの育成を支える爆速フィードバック文化
sansantech
PRO
3
1.1k
アジャイル開発とスクラム
araihara
0
170
表現を育てる
kiyou77
1
210
現場で役立つAPIデザイン
nagix
33
12k
Developers Summit 2025 浅野卓也(13-B-7 LegalOn Technologies)
legalontechnologies
PRO
0
710
AndroidXR 開発ツールごとの できることできないこと
donabe3
0
130
技術的負債解消の取り組みと専門チームのお話 #技術的負債_Findy
bengo4com
1
1.3k
Featured
See All Featured
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
Fontdeck: Realign not Redesign
paulrobertlloyd
83
5.4k
Fashionably flexible responsive web design (full day workshop)
malarkey
406
66k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
120k
Six Lessons from altMBA
skipperchong
27
3.6k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
100
18k
Facilitating Awesome Meetings
lara
52
6.2k
Adopting Sorbet at Scale
ufuk
74
9.2k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
10
1.3k
Transcript
組織的にSREが始まる中で意識したこと 2024/11/29 ゆるSRE勉強会 #8 abnoumaru @ IVRy Inc.
⾃⼰紹介 学⽣アルバイト兼1社⽬ - 株式会社ハートビーツ 2社⽬ - 株式会社スリーシェイク 3社⽬ - 株式会社IVRy(現職)
id: abnoumaru 2 Engineer Circle / Platform Team
対話型⾳声AI SaaS IVRy 3 ⽉額2,980円からカスタム電話をカンタンに作成できるサービス 全ての電話業務を誰でもすぐにAIを使って効率化できます
電話を当たり前に取れない時代 4
業態に合わせた⾃由な応答設定 5 ダイヤルプッシュとAIの対話をハイブリッドで設定し、 受けたい電話と⾃動化したい電話を分類。電話業務を効率化できる
なぜ話そうと思ったか?
経歴 7 1社⽬:MSP事業で24/365のインフラ運⽤‧監視‧移設‧構築 2社⽬:SREの考えをベースに技術‧組織⽀援 会社の内側からSREの考えを活かして サービスや組織にアプローチする働き⽅をしてみたくなり事業会社に転職 ⼊社エントリ 👉 https://note.com/abnoumaru/n/n1d4833b8a2f5
組織的にSREが始まろうとしている 8 10⽉⼊社でQの⽬標としてもらったタスクが組織的なSLO導⼊ これまでの経験は活きているかな?を整理したくなった 新しく⼊った組織でSREを始めるにあたり意識していることや SLO導⼊をどう実施しているか共有したい これにより誰かの助けになったり懇親会で議論の端緒にしたい
背景
IVRyのアーキテクチャ 10 つながって当たり前(電話) + 間違った情報を発話すると取り返しがつかない(LLM) ⾼いサービスレベルとチャレンジングな領域が混ざり合うエキサイティングな環境 詳しいアーキテクチャは弊社町⽥の資料をご覧ください 🙇 https://speakerdeck.com/ymachida/architecture-of-a-large-scale-automated-phone-response-service-supporting-25-million-cumulative-calls
IVRyのSRE 11 2023年末3名→2024年11⽉現在6名(ローテーション組める!) インフラ‧基盤の改善やSREの⽂化づくりに軸を置くメンバーが増えてきている SREをはじめよう 「16章 SRE組織の進化段階」でいうと 消防⼠からゲートキーパーに⾜を踏み⼊れたような段階 ex. 権限管理が本格的に始まる
https://zenn.dev/ivry/articles/9d62808ec3eb61 David N. Blank-Edelman 著; 山口 能迪 訳; “SREをはじめよう ―個人と組織による信頼性獲得への第一歩 ”, O’Reilly Japan, 2024年.
SREに関連しそうなトピック 12 2020/11 2021/05 2021/08 2023/04 2024/11 サービス成⻑や開発速度を ⾒据えてインフラ移管計画 (完全にECSに移動、
Terraform…) エンジニアの⼈数増加 2022年1Q 2名 2024年4Q 34名 個から組織/仕組みへの転換 インフラに軸を置く 正社員が⼊社 (インフラリリースで 奥⻄の⽴ち会いが不要に) コロナのワクチン接種予約 初めてのスパイク 正式リリース CEOの奥⻄はエンジニアのバックグラウンドがある
現状
元々信頼性に関する良い⽂化がたくさんある! 14 インシデントレスポンス 組織全体で不具合をキャッチ/報告する⽂化が強いと感じる(ボールを拾う) PdMがインシデントコマンダーを実施している ポストモーテムもすでに始まっていた ユーザに届けたい/届いている価値は何か?を意識する瞬間が多い 「ユーザからこういう嬉しい声が届きました」が集まるReacjiがある 導⼊事例インタビューに誰でも参加可能 (モチベーションアップ、フィードバックを得やすい)
新メンバーによるあるべき論の議論 15 新メンバーでも⾃分なりの考えやこれまでの経験をベースにツールや⽂化を いい⽅向に持っていくような問題提起をしやすい環境かつ⽂章に残すメンバーが多い印象 新メンバーから議論が残っていて助かるという声が⽴て続けにあり ⾔語化の⼤切さを改めて認識
データ/リリース/O11yの基盤整備が促進 16 メンバーが増え新しい仕組みの導⼊や構成変更が活発になってきた 例えばDatadog APMの導⼊により... リリース後の不審なシステムメトリクスや意図しない挙動を 理解し説明できる尺度が上がってきた👍 課題もある リアクティブに対応が⾏われている部分をなるべく減らしたい O11yが向上により明らかになるメトリクスやエラーに対応する基準を作りたい
SREとして意識していること
リリースや障害対応に積極的に参加 18 SREの探求「20.1.3 アクティブラーニングの実例」を意識 積極的に議論に参加して何もわからない状態から ⾃分で調べて不明点は後で有識者に聞くドキュメントで答え合わせする SREに好奇⼼は重要な要素 (SREをはじめようにも書いてある) わからないことがある前提で動くということは 新しい顧客の知らない環境に⾶び込む経験が活きていそう
David N. Blank-Edelman 編、山口 能迪 監訳、渡邉 了介 訳; “SREの探求 ―様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践 ”, O’Reilly Japan, 2021年.
歴史を学ぶ 19 組織やシステムの歴史を理解することは、信頼を築くひとつの⽅法 過去の課題や選択や感情や価値観(ストーリー)を理解することで 現状も理解できるし改善提案に説得⼒が増し、チームの協⼒を得やすくなる SREをはじめようでも5.5でストーリーテリングの重要性について語られている 他社と働くでいうナラティヴの溝を超える感覚 前職までの経験則としても⼤事だと感じる (⾃分が単純に楽しそうにそういう話をしているのを聞くの好きなだけかも) 宇田川
元一 著; “他者と働く~「わかりあえなさ」から始める組織論~ ”, NewsPicksパブリッシング , 2019年.
⚠ お伺い⽴てすぎない 20 これまでの顧客の環境に変更を加えるスタイルだと 見えない背景も多いので報告してから実施がベターな場合もあった もちろん環境が違えばスタイルも違うので 出せるはずのスピードが最初出せていなかったのは反省 フィードバックやサポートでアンラーンが促進して ありがたかった!
SLO導⼊の例
⻑期的な施策になりがち 22 カルチャーやドメイン知識が必要でハイコンテクスト 技術的には地道に計測/視覚化/通知やレポートの整備が必要 ⼩さく始めてイテレーションを繰り返し改善していく ⾃然と関係者も多くなる 活動として迷⼦、⾃然消滅が発⽣する
ドキュメントやマイルストーンの管理する 23 ⽅向性を⽰すこと、⼩さくても進んでいることが周囲に伝わりやすい努⼒が⼤事 前職まで提案や⽀援の計画を整備していた経験は活きている
嬉しかったこと 24 CUJを把握するMTGにPdMやデザイナーを巻き込めて⼤変いい時間だった 前職までワークショップや説明をする役を多くした経験は活きている
SLOの現状 25 仮置きでも項⽬を増やして週次定例で値の推移を⼀部観察し始めている Datadog APMとSLOの機能を利⽤(以下はレイテンシ) 値の推移が追える👍 「実はここ遅かったのか」という気付き👍 ⾚いところあるけどまだ項⽬ごと適切なターゲットではない ex. リクエスト数が少なく⾚くなりやすい部分は要調整
SLOの課題 26 ELBではなくAPMを優先した理由 /hoge/:id のようなパスを集計がAPMならデフォルトでできる 今後ユーザの近いELBでも取得したいので以下を考える 上記のようなパス集計をどの仕組みでやるか? (DatadogのLog pipeline?自分でLambdaなどでやる?) 4xx台をエラーをどう集計するか?
(WAFの4xx台はGood…?/TwilioとELB間の460はBad)
最後に 27 IVRyの背景や⽂化を紹介しつつ はじめて事業会社に⼊ったメンバーが SREのプラクティス導⼊をするうえで意識していることや これまでの経験で活きていることを紹介した あなたの会社の良い⽂化‧SREのプラクティス導⼊の進め⽅ ぜひ教えて下さい!
None