Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OpsJAWS Meetup21 システム運用アンチパターンのすすめ
Search
Ryo Yoshii
June 21, 2022
Technology
0
3.3k
OpsJAWS Meetup21 システム運用アンチパターンのすすめ
2022年6月21日 開催 Ops JAWS Meetup#21 で登壇した資料を公開します
Ryo Yoshii
June 21, 2022
Tweet
Share
More Decks by Ryo Yoshii
See All by Ryo Yoshii
SRE with AI:実践から学ぶ、運用課題解決と未来への展望
yoshiiryo1
1
1.2k
2025-02-21 ゆるSRE勉強会 Enhancing SRE Using AI
yoshiiryo1
1
630
Enhancing SRE Using AI
yoshiiryo1
1
990
Amazon Bedrock Agents と Chatbot で無敵のOpsになる
yoshiiryo1
1
220
組織横断型であるがゆえの楽しみと苦しみ
yoshiiryo1
4
1.2k
EC2 の運用と監視の基本をおさらい 「監視、バックアップ、操作」
yoshiiryo1
0
710
re:Invent2023 現地レポ& Cloud Operation サービス Update
yoshiiryo1
0
200
Amazon CloudWatch Application Signals(Preview) 徹底解説
yoshiiryo1
0
1.9k
増え続ける公開アプリケーションへの悪意あるアクセス_多層防御を取り入れるSRE活動_.pdf
yoshiiryo1
2
2.7k
Other Decks in Technology
See All in Technology
Evolution on AI Agent and Beyond - AGI への道のりと、シンギュラリティの3つのシナリオ
masayamoriofficial
0
260
攻撃と防御で実践するプロダクトセキュリティ演習~導入パート~
recruitengineers
PRO
3
1.4k
実践AIガバナンス
asei
3
200
Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders
kzykmyzw
0
390
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
30k
エキサイトブログの トップページを 段階的にリプレイスする
zsp2088dev
0
100
JOAI発表資料 @ 関東kaggler会
joai_committee
1
480
人と組織に偏重したEMへのアンチテーゼ──なぜ、EMに設計力が必要なのか/An antithesis to the overemphasis of people and organizations in EM
dskst
6
690
KINTO FACTORYから学ぶ生成AI活用戦略
kintotechdev
0
130
帳票Vibe Coding
terurou
0
150
つくって納得、つかって実感! 大規模言語モデルことはじめ
recruitengineers
PRO
29
10k
ここ一年のCCoEとしてのAWSコスト最適化を振り返る / CCoE AWS Cost Optimization devio2025
masahirokawahara
0
150
Featured
See All Featured
Into the Great Unknown - MozCon
thekraken
40
2k
Gamification - CAS2011
davidbonilla
81
5.4k
Documentation Writing (for coders)
carmenintech
73
5k
A designer walks into a library…
pauljervisheath
207
24k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.4k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
Thoughts on Productivity
jonyablonski
69
4.8k
Scaling GitHub
holman
463
140k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
We Have a Design System, Now What?
morganepeng
53
7.8k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.4k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Transcript
OpsJAWS Meetup#21 システム運用アンチパターン のすすめ 2022-06-21 吉井 亮 1
自己紹介 吉井 亮 (Yoshii Ryo) 経歴: HWエンジニア → 中小SIer →
ERPコンサル → 現職(AWSパートナー) Twitter: @YoshiiRyo1 好きな言葉: no human labor is no human error 2
おすすめしたい システム運用アンチパターン ――エンジニアがDevOpsで解決する組織・自動化・コミュニケーション Jeffery D. Smith 著、田中 裕一 訳 2022年04月 発行 352ページ
https://www.oreilly.co.jp/books/9784873119847/ 3
本日の内容 『システム運用アンチパターン』を 紹介・抜粋しながら運用アンチパターンを 回避する策を考察します (Opsがメイン) 4
Let’s tweet #opsjaws #jawsug を付けながら 「あるある」「うちではこうだった」と つぶやいてもらえれば嬉しいです 5
『システム運用アンチパターン』対象読者 • 技術チームの運用担当 • 技術チームの開発担当 • これらのチームリーダーや一般エンジニア • 限られた権限しか持たない人を前提 6
『システム運用アンチパターン』の目次 1. DevOps を構成するもの 2. パターナリスト症候群 3. 盲目状態での運用 4. 情報ではなくデータ
5. 最後の味付けとしての品質 6. アラート疲れ 7 7. 空の道具箱 8. 業務時間外のデプロイ 9. せっかくのインシデント無駄に する 10. 情報のため込み 11. 命じられた文化 12. 多すぎる尺度
ベースとなる考え (CAMS) DevOps 文 化 自 動 化 メ ト
リ ク ス 共 有 8
ゲートキーパー 9
パターナリスト症候群 親子関係のように、強い立場にある者が 弱い立場に対して介入することを指す 例) 運用グループがシステム変更に対して 広範なレビュープロセスを実施する ❌ アンチパターン 10
パターナリスト症候群が進むと何がおきるか • 安全装置のはずの承認が障壁になる • 特定の人(達) だけが実行や承認をする → ゲートキーパー • ゲートキーパーと仕事するようになる
• 摩擦がおきる ❌ アンチパターン 11
自動化によりパターナリスト症候群の解消 手動プロセスをテクノロジーで自動化 🙅 承認は人間がするもの 🙅 12
承認の目的を把握 自動化するが承認の目的は果たす • 作業を継続するのに適切な状態である • 作業が発生していることを知らせる • アクションの衝突がない • 変更のリスクが許容できる範囲である
13
運用の自動化 14
自動化による改善 • 待ち時間 • 実行時間 • 実行頻度 • 実行のばらつき 15
自動化する • 自動化を文化とする • ツール開発運用をする人員の確保 • 手動での作業を良しとしない • 手動作業のコストを計算する •
自動化タスクに安全性を取り入れる 16
自動化に伴うリスクをプロット 低い 高い 高い [低リスク] 自動化 [中リスク] 処理の途中でユーザーに 確認を取るタイプの自動化 低い
[中リスク] 処理の途中でユーザーに 確認を取るタイプの自動化 [高リスク] 必要な情報は手動で 入力するタイプの自動化 間違えた場合の重大さ 自 信 の 度 合 い 17
デプロイの自動化 18
デプロイを日常的に行う • 正確な本番前環境 ◦ 違いが可能な限り少ない環境 ◦ コンテナ • 頻繁に行うことで恐怖心を減らす •
リスクを減らして恐怖心を減らす 19
デプロイ失敗への対応 • ロールバック可能なデプロイ ◦ Blue/Green, Canary, Rolling • アーティファクトの活用 •
破壊的変更は複数段階を経て 20
組織の文化 21
組織の文化 22 メインロビーに飾られているプレートではな く、具体的な形で存在しているべき 育て、発展させ、行動で示される
ピーター・ドラッカー 企業文化は戦略に勝る 23
文化とは あるグループの人々をほかのグループから 区別する、共有された価値観・習慣・信念 の集合体として定義される。 24
文化を根付かせるには? • 言葉による共有 • 物語による共有 • 習慣による共有 • 文化チーフ (文化的価値観を体現する人)
• 価値観を調べる • 文化に合った人材を見つける 25
開発・運用役割の変化 26
責任の変化 開発 → 自分たちが書いたコードが本番環境で どのように動くか詳細に理解 運用 → プロダクトの挙動を詳細に理解 27
AWS Well-Architected の話し 28 https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/fully-separated-operating-model.html
AWS Well-Architected の話し 29 https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/separated-aeo-and-ieo-with-centralized-governance-and-a-service-provider.html
ポストモーテム 30
インシデントの振り返りをしていますか? 31 • 責任のなすりあい • 自分は無実だと証明することに躍起 • 情報の壁 • 行動と人格
• トリプルチェックの導入 ❌ アンチパターン
良いポストモーテム • 非難のない文化 • システムの問題、プロセスの問題 • 24時間以内にポストモーテムを実施 • 今となっては明白でも同時はあいまい •
インシデントの全容解明が主目的 32
アクションアイテムの定義 • 可視化できていない箇所を可視化 • システムの可用性を向上させる • 誰がいつまでに何をするか ◦ 日常業務から離れることの理解 33
ポストモーテムのドキュメント化 • インシデントの詳細 • インシデントサマリー • インシデントウォークスルー • ポストモーテムの共有 34
アラートに疲れない 35
アラート基準 • Runbook を含める • 次の行動が可能である • タイムリー • 適切な優先順位付け
36
オンコールローテーション • 最初の連絡者(達)を定めたスケジュール • 1週間で交代 • アラートの重要度に合わせて通知手段を 変える (電話、Slack、メール等) 37
オンコールローテーションの配置 • 4人以上でローテーションを回す • プライマリ、セカンダリ • 精神的、肉体的負担への配慮 • 金銭的補償 •
代休 • 在宅対応 38
情報のため込み:ブレンドだけが知っている 39
情報のため込みを理解する 40 • 組織構造・インセンティブ・優先順位・ 価値観の組み合わせによって発生する • 意図的なためこみ • 意図しないためこみ
意図的なためこみ • ゲートキーパーになりたい 41
意図しないためこみ プロジェクトでは機能実装を優先した → ドキュメントは後回しになった → 落ち着いたと思ったら別プロジェクトへ 42
ドキュメント化 • 価値があるものはドキュメント化する • そうでなければ省略してもよい • 書くタイミング ◦ コード、インフラは陳腐化する •
抽象化 ◦ 要件、目的、他システム影響がある部分 43
ナレッジストアの構築 • ドキュメントを共有する • 検索しやすくする ◦ 階層化、タグ • 「ただ置く場所」にならないように •
習慣付け ◦ 学習~ドキュメント化~共有 44
情報のため込み方 • ストック ◦ ナレッジストア ◦ ブロク • フロー ◦
チャットツール ◦ SNS 45
最後に 46
おすすめしたい システム運用アンチパターン ――エンジニアがDevOpsで解決する組織・自動化・コミュニケーション Jeffery D. Smith 著、田中 裕一 訳 2022年04月 発行 352ページ
https://www.oreilly.co.jp/books/9784873119847/ 47
48 Thank you for your good ops.