Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Road to SRE NEXT@仙台 IVRyの組織の形とSLO運用の現状
Search
abnoumaru
March 28, 2025
Technology
1
570
Road to SRE NEXT@仙台 IVRyの組織の形とSLO運用の現状
abnoumaru
March 28, 2025
Tweet
Share
More Decks by abnoumaru
See All by abnoumaru
IVRyエンジニア忘年LT大会2024 クリティカルユーザージャーニーの整理
abnoumaru
0
400
ゆるSRE勉強会 #8 組織的にSREが始まる中で意識したこと
abnoumaru
2
1.8k
3-shake SRE Tech Talk #10 LLMのO11yに触れる
abnoumaru
2
12k
マイクロサービスの現場からプラットフォームエンジニアリングの可能性を探る!
abnoumaru
2
11k
SLOいつ決めましょう?
abnoumaru
4
2.5k
あなたらしくSRE(公開用)
abnoumaru
5
8.2k
SRE Lounge 20180117
abnoumaru
0
6.7k
IDCFクラウドを使ってどこまでチューニングできるか試してみた
abnoumaru
0
250
AWS認定ソリューションアーキテクトを受けた話
abnoumaru
1
1.9k
Other Decks in Technology
See All in Technology
Contract One Dev Group 紹介資料
sansan33
PRO
0
6k
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
24k
アプリケーションの中身が見える!Mackerel APMの全貌と展望 / Mackerel APMリリースパーティ
mackerelio
0
430
S3 Tables を図解でやさしくおさらい~基本から QuickSight 連携まで/s3-tables-illustrated-basics-quicksight
emiki
1
330
令和最新版TypeScriptでのnpmパッケージ開発
lycorptech_jp
PRO
0
110
Eight Engineering Unit 紹介資料
sansan33
PRO
0
3.2k
TypeScript と歩む OpenAPI の discriminator / OpenAPI discriminator with TypeScript
kaminashi
1
150
やさしいClaude Code入門
minorun365
PRO
28
22k
それでもぼくらは貢献をつづけるのだ(たぶん) @FOSS4GLT会#002
furukawayasuto
1
270
Data Hubグループ 紹介資料
sansan33
PRO
0
1.7k
Postman AI エージェントビルダー最新情報
nagix
0
200
プラットフォームとしての Datadog / Datadog as Platforms
aoto
PRO
1
330
Featured
See All Featured
Large-scale JavaScript Application Architecture
addyosmani
512
110k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
34
2.3k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
6
650
Why Our Code Smells
bkeepers
PRO
336
57k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
1
77
Art, The Web, and Tiny UX
lynnandtonic
298
21k
Making the Leap to Tech Lead
cromwellryan
133
9.3k
Rails Girls Zürich Keynote
gr2m
94
13k
Intergalactic Javascript Robots from Outer Space
tanoku
271
27k
GraphQLとの向き合い方2022年版
quramy
46
14k
The Pragmatic Product Professional
lauravandoore
35
6.7k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Transcript
2025/03/29 IVRyの組織の形と SLO運用の現状 2025/03/29 【JAWS東北支部共催】Road to SRE NEXT@仙台 abnoumaru @
IVRy Inc.
2024年10⽉にIVRyに⼊社。 Circle: Development > Platform Project:Architecture > SRE 仙台は⼈⽣3度⽬! ⼀昨⽇⼈⽣で初めてせり鍋⾷べた。
株式会社IVRy SRE Project Owner abnoumaru
対話型⾳声AI SaaS IVRy 3 最短5分‧⽉2,980円から電話業務を⾃動化‧効率化することができるサービスで、 ボタンプッシュによる⾃動応答/SMS返信/電話転送に加えて、AI⾳声対話など様々な機能が利⽤可能
業態に合わせた⾃由な応答設定 4 ダイヤルプッシュとAIの対話をハイブリッドで設定し、 受けたい電話と⾃動化したい電話を分類。電話業務を効率化できる
なぜ話そうと思ったか?
IVRy、SREに突⼊していた 6 メンバーが増えて各々の得意が重なりSREらしいプラクティスが芽吹いてきている
SLOについて共有してみんなと話したい 7 過去2回の体外発表はSLOについて話している ⻑期化して迷⼦になったり⾃然消滅もしやすい SLOの話なんてなんぼあっても良いですから
組織の形? 8 SREやSLOの話をするにあたり組織の形、具体的なドキュメントや会議内容は ⾒聞きしてくれる⼈が「⾃組織ならどうするか?」と判断するときに重要だと思う 組織の話や具体的な部分にも触れていきます 💪
IVRyの組織の形
職能毎の組織開発に責任を持つサークルと 3ヶ⽉ごとに事業成⻑を⽬指したOKRにコミットするプロジェクトがある サークル/プロジェクト制 10
Architecture PJは横断的なプラットフォームを⾒ている プラットフォームという特徴からPlatform Circle ≒ Architecture PJが実情 Platform Circle /
Architecture PJ 11 Archtecture
Architecture PJのサブプロジェクト 12 SRE 信頼性への責任 Dev Infra 開発基盤への責任 Data Infra
データ基盤への責任 サブプロジェクトとしてSREの活動をしている 3つのサブプロジェクトがあるがメンバーはほぼ重複している
IVRyのSRE
電話とAIの信頼性 14 つながって当たり前な電話×未知の領域であるAI チャレンジングな領域で信頼性と向き合う楽しさがある (加えて⼤量の⾮構造な⾳声やテキストデータをどう扱うか?がポイント)
3つのObjectiveを掲げて活動してきた(2Qは別途掲げる) 2025 1Q IVRyのSREのObjective 15 SLOを価値ある判断材料として運⽤できる状態を⽬指す インシデントを最速で復旧させる仕組みを作る 全⼈類が電話をかけてきても耐えられるサービスを⽬指す 1 2
3
Architectureの今後の技術テーマ 16 LLMの信頼性 WebSocketの 信頼性 電話の流量制御 トイル削減 負荷試験基盤 障害試験 インシデント
レスポンス 電話の信頼性 データ基盤 デリバリ速度 認証基盤 ログ基盤
IVRyのサービスで守りたいこと
電話⾃動応答のアーキテクチャ 18 IVRyは「クライアント」の代わりに電話をとり「エンドユーザー」に⾃動で応答するサービス システムは①エンドユーザー側と②クライアント側に分かれる エンドユーザー側 電話応答システム クライアント側 ルール設定システム 詳細:https://speakerdeck.com/ymachida/architecture-of-a-large-scale-automated-phone-response-service-supporting-25-million-cumulative-calls 電話応答システム
AI対話システム ルール設定システム
アーキテクチャで最も優先していること 「電話はつながって当たり前」を守ること 特にエンドユーザー側の⾃動応答が損なわれないような設計を意識 👉 SLOは電話体験を中⼼に⼩さく始めている 19
策定時の反省 10⽉に⼊社後SLOの導⼊をアサインしてもらい 元々電話応答システムもルール設定システムも⼀気にやろうとしたが SREで⼤事な⼩さく始めるに反していた 👉 ユーザに届けたい価値を基準に各々のペースでやればよい ex. 実はうまく取れておらず修正が必要、違反しても量が多いと改修しきれない、ドキュメントをたくさん整えていく必要がある... 20
SLOの運⽤
SLOの観察 APMで必要なエンドポイントのSLOを主に観察 誰でも任意参加可能なMTGで眺めてる 22
SLO違反があったときは? エンジニア全体の定例でSLO観察のコーナーをして対応状況を共有 23
SLOのドキュメント 24 SLO OnboardingとSLO Docsを⽤意している ドキュメントを利⽤して対象サービスに説明 詳細:https://zenn.dev/luup_developers/articles/sre-gr1m0h-20250205 / https://sre-magazine.net/articles/2/ryuichi_1208/ SLO
Onboarding SLO Docs
SLOの設定する流れ 25 履歴や承認のことを考えてマークダウンをGitHubで管理しているが DocsからTerraformが⼿作業だと多分更新が廃れる SLO Docs 変換するツールを作って メンテナンスするより 変換はLLMに任せる? Markdown
locals.tf
SLO DocsからTerraformの⽣成 26 だいたい構造化されたデータを構造化されたデータにするをAIに任せる案 今回はDevinにお願いしたけどコスト的にLLMを⾃分で叩くツールを作る⽅がいい AIに任せるだけなくどのAIに任せるか?を考える瞬間が出てきて時代を感じる
IVRyは開発でもAIの検証が活発 27 プロダクトに組み込まれたLLMとは別に主に業務で利⽤しているツール 過渡期なのでアンテナを張りながら要望に応じて様々なツールを積極的に検証 Gemini Advanced NotebookLM Plus Cursor Devin
Cline GitHub Copilot
SLOに関するいいエピソード
リアクティブ→プロアクティブな変化 29 「なんか遅いかも」「CLからこんな連絡が...」だけではない プロアクティブに異常に気づける仕組みが増えた 👍 ex. SLOによりリリース後の全体的なレイテンシに気づいて 体感やクライアントからの連絡前に対処できる
すでにSLOはSREだけの関⼼事ではない 30 前スライド「SLO違反があったときは?」の調査および対応は サービスを主に担当するメンバーとSREに所属するメンバーで対応できた 信頼性を回復するという判断を SREだけではない範囲でできている 👍
SREがコードにも踏み込めている 31 前スライド「SLOの観察」を回復させる対応は SRE内部で状況を確認した後、⾃分がボールを持って進めようとしている
最後に 32 IVRyもSREがはじまっていました SLO導⼊6ヶ⽉程度の現状を共有 SLOが共通のものさしとして動き出した感があり 実際に活⽤された事例も出てきている 次のステップとしてSLOがより開発サイクルに ⾃然と組み込まれた運⽤を確⽴したい (SRE解散の第⼀歩)
None