Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OpsJAWS Meetup21 システム運用アンチパターンのすすめ
Search
Ryo Yoshii
June 21, 2022
Technology
0
3.3k
OpsJAWS Meetup21 システム運用アンチパターンのすすめ
2022年6月21日 開催 Ops JAWS Meetup#21 で登壇した資料を公開します
Ryo Yoshii
June 21, 2022
Tweet
Share
More Decks by Ryo Yoshii
See All by Ryo Yoshii
SRE with AI:実践から学ぶ、運用課題解決と未来への展望
yoshiiryo1
1
1.5k
2025-02-21 ゆるSRE勉強会 Enhancing SRE Using AI
yoshiiryo1
1
660
Enhancing SRE Using AI
yoshiiryo1
1
1k
Amazon Bedrock Agents と Chatbot で無敵のOpsになる
yoshiiryo1
1
240
組織横断型であるがゆえの楽しみと苦しみ
yoshiiryo1
4
1.2k
EC2 の運用と監視の基本をおさらい 「監視、バックアップ、操作」
yoshiiryo1
0
760
re:Invent2023 現地レポ& Cloud Operation サービス Update
yoshiiryo1
0
210
Amazon CloudWatch Application Signals(Preview) 徹底解説
yoshiiryo1
0
2k
増え続ける公開アプリケーションへの悪意あるアクセス_多層防御を取り入れるSRE活動_.pdf
yoshiiryo1
2
2.8k
Other Decks in Technology
See All in Technology
AIエージェントによる業務効率化への飽くなき挑戦-AWS上の実開発事例から学んだ効果、現実そしてギャップ-
nasuvitz
5
1.2k
プロファイルとAIエージェントによる効率的なデバッグ / Effective debugging with profiler and AI assistant
ymotongpoo
1
190
ゼロコード計装導入後のカスタム計装でさらに可観測性を高めよう
sansantech
PRO
1
450
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
14
82k
AWS re:Invent 2025事前勉強会資料 / AWS re:Invent 2025 pre study meetup
kinunori
0
280
AIとともに歩んでいくデザイナーの役割の変化
lycorptech_jp
PRO
0
880
[VPoE Global Summit] サービスレベル目標による信頼性への投資最適化
satos
0
250
Open Table Format (OTF) が必要になった背景とその機能 (2025.10.28)
simosako
2
270
Oracle Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
0
360
IBC 2025 動画技術関連レポート / IBC 2025 Report
cyberagentdevelopers
PRO
2
180
re:Inventに行くまでにやっておきたいこと
nagisa53
0
230
Implementing and Evaluating a High-Level Language with WasmGC and the Wasm Component Model: Scala’s Case
tanishiking
0
180
Featured
See All Featured
Typedesign – Prime Four
hannesfritz
42
2.8k
The Pragmatic Product Professional
lauravandoore
36
7k
The Language of Interfaces
destraynor
162
25k
Code Review Best Practice
trishagee
72
19k
Six Lessons from altMBA
skipperchong
29
4k
Documentation Writing (for coders)
carmenintech
75
5.1k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
How STYLIGHT went responsive
nonsquared
100
5.9k
Docker and Python
trallard
46
3.6k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
10
620
Transcript
OpsJAWS Meetup#21 システム運用アンチパターン のすすめ 2022-06-21 吉井 亮 1
自己紹介 吉井 亮 (Yoshii Ryo) 経歴: HWエンジニア → 中小SIer →
ERPコンサル → 現職(AWSパートナー) Twitter: @YoshiiRyo1 好きな言葉: no human labor is no human error 2
おすすめしたい システム運用アンチパターン ――エンジニアがDevOpsで解決する組織・自動化・コミュニケーション Jeffery D. Smith 著、田中 裕一 訳 2022年04月 発行 352ページ
https://www.oreilly.co.jp/books/9784873119847/ 3
本日の内容 『システム運用アンチパターン』を 紹介・抜粋しながら運用アンチパターンを 回避する策を考察します (Opsがメイン) 4
Let’s tweet #opsjaws #jawsug を付けながら 「あるある」「うちではこうだった」と つぶやいてもらえれば嬉しいです 5
『システム運用アンチパターン』対象読者 • 技術チームの運用担当 • 技術チームの開発担当 • これらのチームリーダーや一般エンジニア • 限られた権限しか持たない人を前提 6
『システム運用アンチパターン』の目次 1. DevOps を構成するもの 2. パターナリスト症候群 3. 盲目状態での運用 4. 情報ではなくデータ
5. 最後の味付けとしての品質 6. アラート疲れ 7 7. 空の道具箱 8. 業務時間外のデプロイ 9. せっかくのインシデント無駄に する 10. 情報のため込み 11. 命じられた文化 12. 多すぎる尺度
ベースとなる考え (CAMS) DevOps 文 化 自 動 化 メ ト
リ ク ス 共 有 8
ゲートキーパー 9
パターナリスト症候群 親子関係のように、強い立場にある者が 弱い立場に対して介入することを指す 例) 運用グループがシステム変更に対して 広範なレビュープロセスを実施する ❌ アンチパターン 10
パターナリスト症候群が進むと何がおきるか • 安全装置のはずの承認が障壁になる • 特定の人(達) だけが実行や承認をする → ゲートキーパー • ゲートキーパーと仕事するようになる
• 摩擦がおきる ❌ アンチパターン 11
自動化によりパターナリスト症候群の解消 手動プロセスをテクノロジーで自動化 🙅 承認は人間がするもの 🙅 12
承認の目的を把握 自動化するが承認の目的は果たす • 作業を継続するのに適切な状態である • 作業が発生していることを知らせる • アクションの衝突がない • 変更のリスクが許容できる範囲である
13
運用の自動化 14
自動化による改善 • 待ち時間 • 実行時間 • 実行頻度 • 実行のばらつき 15
自動化する • 自動化を文化とする • ツール開発運用をする人員の確保 • 手動での作業を良しとしない • 手動作業のコストを計算する •
自動化タスクに安全性を取り入れる 16
自動化に伴うリスクをプロット 低い 高い 高い [低リスク] 自動化 [中リスク] 処理の途中でユーザーに 確認を取るタイプの自動化 低い
[中リスク] 処理の途中でユーザーに 確認を取るタイプの自動化 [高リスク] 必要な情報は手動で 入力するタイプの自動化 間違えた場合の重大さ 自 信 の 度 合 い 17
デプロイの自動化 18
デプロイを日常的に行う • 正確な本番前環境 ◦ 違いが可能な限り少ない環境 ◦ コンテナ • 頻繁に行うことで恐怖心を減らす •
リスクを減らして恐怖心を減らす 19
デプロイ失敗への対応 • ロールバック可能なデプロイ ◦ Blue/Green, Canary, Rolling • アーティファクトの活用 •
破壊的変更は複数段階を経て 20
組織の文化 21
組織の文化 22 メインロビーに飾られているプレートではな く、具体的な形で存在しているべき 育て、発展させ、行動で示される
ピーター・ドラッカー 企業文化は戦略に勝る 23
文化とは あるグループの人々をほかのグループから 区別する、共有された価値観・習慣・信念 の集合体として定義される。 24
文化を根付かせるには? • 言葉による共有 • 物語による共有 • 習慣による共有 • 文化チーフ (文化的価値観を体現する人)
• 価値観を調べる • 文化に合った人材を見つける 25
開発・運用役割の変化 26
責任の変化 開発 → 自分たちが書いたコードが本番環境で どのように動くか詳細に理解 運用 → プロダクトの挙動を詳細に理解 27
AWS Well-Architected の話し 28 https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/fully-separated-operating-model.html
AWS Well-Architected の話し 29 https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/separated-aeo-and-ieo-with-centralized-governance-and-a-service-provider.html
ポストモーテム 30
インシデントの振り返りをしていますか? 31 • 責任のなすりあい • 自分は無実だと証明することに躍起 • 情報の壁 • 行動と人格
• トリプルチェックの導入 ❌ アンチパターン
良いポストモーテム • 非難のない文化 • システムの問題、プロセスの問題 • 24時間以内にポストモーテムを実施 • 今となっては明白でも同時はあいまい •
インシデントの全容解明が主目的 32
アクションアイテムの定義 • 可視化できていない箇所を可視化 • システムの可用性を向上させる • 誰がいつまでに何をするか ◦ 日常業務から離れることの理解 33
ポストモーテムのドキュメント化 • インシデントの詳細 • インシデントサマリー • インシデントウォークスルー • ポストモーテムの共有 34
アラートに疲れない 35
アラート基準 • Runbook を含める • 次の行動が可能である • タイムリー • 適切な優先順位付け
36
オンコールローテーション • 最初の連絡者(達)を定めたスケジュール • 1週間で交代 • アラートの重要度に合わせて通知手段を 変える (電話、Slack、メール等) 37
オンコールローテーションの配置 • 4人以上でローテーションを回す • プライマリ、セカンダリ • 精神的、肉体的負担への配慮 • 金銭的補償 •
代休 • 在宅対応 38
情報のため込み:ブレンドだけが知っている 39
情報のため込みを理解する 40 • 組織構造・インセンティブ・優先順位・ 価値観の組み合わせによって発生する • 意図的なためこみ • 意図しないためこみ
意図的なためこみ • ゲートキーパーになりたい 41
意図しないためこみ プロジェクトでは機能実装を優先した → ドキュメントは後回しになった → 落ち着いたと思ったら別プロジェクトへ 42
ドキュメント化 • 価値があるものはドキュメント化する • そうでなければ省略してもよい • 書くタイミング ◦ コード、インフラは陳腐化する •
抽象化 ◦ 要件、目的、他システム影響がある部分 43
ナレッジストアの構築 • ドキュメントを共有する • 検索しやすくする ◦ 階層化、タグ • 「ただ置く場所」にならないように •
習慣付け ◦ 学習~ドキュメント化~共有 44
情報のため込み方 • ストック ◦ ナレッジストア ◦ ブロク • フロー ◦
チャットツール ◦ SNS 45
最後に 46
おすすめしたい システム運用アンチパターン ――エンジニアがDevOpsで解決する組織・自動化・コミュニケーション Jeffery D. Smith 著、田中 裕一 訳 2022年04月 発行 352ページ
https://www.oreilly.co.jp/books/9784873119847/ 47
48 Thank you for your good ops.