Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
1人目の専任SREがポストモーテム文化を改善したらエンジニア以外にも広まり、 他部門との連携も...
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
tk3fftk
September 13, 2023
Technology
4.4k
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
1人目の専任SREがポストモーテム文化を改善したらエンジニア以外にも広まり、 他部門との連携も強化された話+
https://findy.connpass.com/event/294084/
tk3fftk
September 13, 2023
More Decks by tk3fftk
See All by tk3fftk
セキュリティの専門家じゃなくてもできる。「セキュリティ意識」をアップデートして サプライチェーン攻撃への耐性を高めよう。
tk3fftk
5
730
TROCCOで始めるクラウドコストを民主化するためのFinOps
tk3fftk
3
610
障害対応のRunbookは作った、でも本当に動くの? AWS FIS で EKS の AZ 障害を再現してみた
tk3fftk
1
150
AWSの資格って役に立つの?
tk3fftk
2
400
ヘルシーSRE
tk3fftk
2
330
セキュアなAI活用のためのLiteLLMの可能性
tk3fftk
5
3k
スタートアップの1人目SREが SREチームを分割しようと考えるに至るまで
tk3fftk
1
320
どちらかだけじゃもったいないかも? ECSとEKSを適材適所で併用するメリット、運用課題とそれらの対応について
tk3fftk
2
1.1k
そろそろOn-Callの通知音について考えてみよう (PagerDuty編)
tk3fftk
3
1.5k
Other Decks in Technology
See All in Technology
スキルと MCP ツール、責務をどう分けるか? AI が迷わないインターフェース設計の戦略
cdataj
1
990
Disciplined Vibes: Scaling AI-Assisted Engineering
sheharyar
0
140
"何を作るか"を任される エンジニアは、どう育つのか
yutaokafuji
1
650
白金鉱業Meetup_Vol.24_「AIエージェントは分けるほど良い」は本当か? / Is it true that “the more you divide AI agents, the better”?
brainpadpr
1
340
AIソロプレナー時代に2ヶ月で20人増員した事業創造会社の開発組織の話
miyatakoji
0
630
On-behalf-of Token exchange with AgentCore Identity
hironobuiga
2
160
Agentic Web
dynamis
1
210
Snowflakeと仲良くなる第一歩
coco_se
4
440
SIer20年! 培ったスキルがスタートアップで輝く時
shucho0103
0
850
10倍の生産性を実現するAI駆動並列エージェントのすべて
kumaiu
5
1.4k
protovalidate-es を導入してみた
bengo4com
0
180
2026 TECHFRESH 畢業分享會 - AI-Native 重塑軟體工程與虛擬講師
line_developers_tw
PRO
0
910
Featured
See All Featured
Building a Modern Day E-commerce SEO Strategy
aleyda
45
9.1k
Design in an AI World
tapps
1
240
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
71
40k
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4.2k
Are puppies a ranking factor?
jonoalderson
1
3.5k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1.1k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
140
Embracing the Ebb and Flow
colly
88
5.1k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.8k
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
310
Six Lessons from altMBA
skipperchong
29
4.3k
Evolving SEO for Evolving Search Engines
ryanjones
0
210
Transcript
1人目の専任SREがポストモーテム文化を 改善したらエンジニア以外にも広まり、 他部門との連携も強化された話+ 株式会社primeNumber エンジニアリング本部 SRE Hiroki Takatsuka (@tk3fftk) ポストモーテムLT
#2 1
目次 • 自己紹介とtrocco®の紹介 • primeNumberにあったポストモーテム文化 • どのような改善を行ったか • 結果として目に見える成果に繋がったもの •
まとめ 2
先に今日の発表のまとめ 3 • primeNumber社のポストモーテム文化を改善しました💪 • ポイントをふりかえると以下の2点に集約されそうです🙏 • まずは教科書通りに忠実にやる ◦ 守破離の「守」をやるイメージ
◦ 教科書は原典(GoogleのSRE本)にあたること • 組織で自走できる文化ができるまでは啓蒙・推進活動を積極的に行う ◦ 具体的にはポストモーテム作成、ふりかえりの設定とファシリテーター ◦ あれはよいものだ、と認識してもらえると担当者でやろうというムーブになっていく、はず
目次 • 自己紹介とtrocco®の紹介 • primeNumberにあったポストモーテム文化 • どのような改善を行ったか • 結果として目に見える成果に繋がったもの •
まとめ 4
髙塚 広貴 (Hiroki Takatsuka) 株式会社primeNumber エンジニアリング本部 SRE 5 • ヤフー株式会社
(2016 ~ 2022) ◦ CI/CDプラットフォーム Screwdriver.cd の SREチームのEMやスクラムマスターなど • 株式会社primeNumber (2022 ~ ) ◦ trocco®のSRE ◦ SREチームは現在2名 + 業務委託の方数名 • 猫 ◦ アル (アビシニアン ♂ 3歳半)
trocco®とは 6 フルマネージド ETL/ELT 日本特有のサービスを含めた、約100種のコネクタに対応 データ分析基盤のための技術スタックを提供するサービスです。 GUI ワークフロー 複雑なデータ処理フローを GUI
上で設定・運用 データマネジメント機能 データリネージ / Git 連携・コード管理 / スキーマ追従 / データカタログ etc.
7 約100種のコネクタで データを整備・集約 データエンジニアが手を煩わせていた作業工程を、SaaS で簡単に巻き取ることが可能です。
目次 • 自己紹介とtrocco®の紹介 • primeNumberにあったポストモーテム文化 • どのような改善を行ったか • 結果として目に見える成果に繋がったもの •
まとめ 8
エンジニアにポストモーテムを書く文化は存在していた • GitHub issueテンプレの項目を埋める形 • インシデントの発生原因や影響範囲の共 有/記録の観点が強い • でも全然埋まってないとか、活用されて ないものも結構ある…
◦ 右のやつみたいな感じ 9
せっかくのインシデントを無駄にしたくない • ポストモーテム作成に関する課題 • ポストモーテム作成後の活用の仕方 • 上記2点について、ポストモーテムの目的の1つである「失敗から学ぶ」という 観点から見ると改善の余地がありそうだと感じました👀 (「せっかくのインシデントを無駄にする」というアンチパターンがシステム運用アンチパターンにも書かれていますよね) 10
目次 • 自己紹介とtrocco®の紹介 • primeNumberにあったポストモーテム文化 • どのような改善を行ったか • 結果として目に見える成果に繋がったもの •
まとめ 11
やったこと 12 • ポストモーテムのGoogle Docs移行 • Google Docsのテンプレ機能でポストモーテムテンプレートを更新 • インシデント対応マニュアルの作成
• 「ポストモーテムふりかえり」の推進
ポストモーテムのGoogle Docs移行 + テンプレ更新 13 • 同時編集・コメント可能で社内でコラボレーションが容易なGoogle Docsを利用 ◦ GoogleのSRE本のChapter
15 (Postmortem Culture: Learning from Failure) の通り ▪ > Real-time collaboration, An open commenting/annotation system, Email notifications • というか本で「俺たちはこれ使ってるぜ」と書かれているツールそのもの ▪ Google DocsはpN社で普段から利用していた • (前職ではBox Notesを使っていましたが、欲しい機能があり心理的にも導入コストが 低ければ何でもいいはず) • 基本的には SRE本やSRE Workbookに忠実にテンプレートを更新 ◦ 対応に関わっていない人でも読めば何が起こったか追えるよう項目を追加 ◦ 再発防止のためのアクションに優先度をつけるように ◦ 「インシデント対応からの学び」の項目を追加 などなど
こんな感じ 14
インシデント対応マニュアルの作成 • インシデント発生時に行うフローをまとめた ◦ 最低限「インシデント検知した人が何をしたらいいかわからない」状態を無くす目的 • ポストモーテム作成もインシデント対応フローに組み込み • 一応対応フローチャートもMermaidで書いたよ! 15
でも、とっさにコンフル開いてマニュアル見れないよね… • 別チームのエンジニアがSlackのカスタムレスポンス化してくれて浸透🎉 ◦ とあるインシデントのポストモーテムふりかえりの再発防止アクションでした 16
「ポストモーテムふりかえり」の推進 17 • ポストモーテムをベースに議論・再発防止策を検討するミーティング ◦ これをprimeNumber社内では「ポストモーテムふりかえり」と呼んでいます • インシデント発生時、率先してポストモーテムふりかえりを開催+ファシリ • primeNumber社は他部署間の交流が活発
• ポストモーテムに関してもエンジニア組織だけに閉じてしまうのはもったいな い、と感じ、エンジニア組織以外にも「ポストモーテムふりかえり」を推進 • 例えばテクニカルライターチームに推進した例 👉
ある日のSlack… 18
troccoヘルプドキュメントのヘッダに突然のランチメニューが 19 これ
テクニカルライターチームの実験でしたとさ 20
こんにちは、ポストモーテムおじさんです 21 (※このときはまだ共有会って言ってますね)
前向きにふりかえろう • 多くの人の時間を使ってまでふりかえりを行うべき理由の1つだと考えています⏳ 22
目次 • 自己紹介とtrocco®の紹介 • primeNumberにあったポストモーテム文化 • どのような改善を行ったか • 結果として目に見える成果に繋がったもの •
現在どう運用しているか (“プラス”部分) • まとめ 23
成果だと思っているもの • ヒヤリハットもきっちり学びと改善に ◦ 例えば、2023年1月の CircleCI のセキュリティインシデント • ポストモーテムふりかえりを通じてカスタマーサクセスチームとの連携改善 •
開発チームのエンジニアから会社としての強みではないか、というコメントも 24
• 👍 インシデント対応フローに組み込まれ、対応担当者がポストモーテム作 成〜ふりかえりまで実施できている • 👍 対応フローの改善についてもポストモーテムふりかえりで話せている • 👍 (以前からできてますが)
責任を個人ではなくチームのものにできている • 🙏 テンプレの改善 (改善の結果、形骸化してしまっている項目がある) • 🙏 再発防止アクションの履行をSREチームでwatchしている ◦ 「アクションが確実に実施されること」「実施できない場合に優先度・期日を変更した判断理由が書かれること」 現在のポストモーテム運用について個人的 Good👍 / Motto🙏 25
目次 • 自己紹介とtrocco®の紹介 • primeNumberにあったポストモーテム文化 • どのような改善を行ったか • 結果として目に見える成果に繋がったもの •
まとめ 26
まとめ 27 • primeNumber社のポストモーテム文化を改善しました💪 • ポイントをふりかえると以下の2点に集約されそうです🙏 • まずは教科書通りに忠実にやる ◦ 守破離の「守」をやるイメージ
◦ 教科書は原典(GoogleのSRE本)にあたること • 組織で自走できる文化ができるまでは啓蒙・推進活動を積極的に行う ◦ 具体的にはポストモーテム作成、ふりかえりの設定とファシリテーター ◦ あれはよいものだ、と認識してもらえると担当者でやろうというムーブになっていく、はず
trocco®を一緒に創ってくれる方を探しています👀 • 海外展開に向けて面白い経験ができると思うのでぜひ🙏 ◦ trocco® SRE ◦ trocco® ソフトウェアエンジニア ◦
セキュリティスペシャリスト ◦ その他募集一覧 👉 https://herp.careers/v1/primenumber • ゆるく交流しませんか?の会 pN meet up!@目黒 もやります🍻 ◦ 2023年9月29日(金)19:00~21:00 開催予定です! 28
参考資料など • 1人目の専任SREがポストモーテム文化を改善したらエンジニア以外にも広まり、他部門との連携も強化された話|Hiroki Takatsuka • Example Postmortem, Google - Site
Reliability Engineering 29