Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OpsJAWS Meetup21 システム運用アンチパターンのすすめ
Search
Ryo Yoshii
June 21, 2022
Technology
0
3.1k
OpsJAWS Meetup21 システム運用アンチパターンのすすめ
2022年6月21日 開催 Ops JAWS Meetup#21 で登壇した資料を公開します
Ryo Yoshii
June 21, 2022
Tweet
Share
More Decks by Ryo Yoshii
See All by Ryo Yoshii
Amazon Bedrock Agents と Chatbot で無敵のOpsになる
yoshiiryo1
1
97
組織横断型であるがゆえの楽しみと苦しみ
yoshiiryo1
4
1.1k
EC2 の運用と監視の基本をおさらい 「監視、バックアップ、操作」
yoshiiryo1
0
440
re:Invent2023 現地レポ& Cloud Operation サービス Update
yoshiiryo1
0
160
Amazon CloudWatch Application Signals(Preview) 徹底解説
yoshiiryo1
0
1.4k
増え続ける公開アプリケーションへの悪意あるアクセス_多層防御を取り入れるSRE活動_.pdf
yoshiiryo1
2
2.3k
OpsJAWS MEETUP25_みんなが幸せなインシデント管理
yoshiiryo1
0
1.1k
AWS Systems Manager Incident Manager で実現するインシデント管理
yoshiiryo1
0
1.6k
インシデント対応の成熟度とベストプラクティス
yoshiiryo1
0
1.7k
Other Decks in Technology
See All in Technology
re:Invent 2024 Innovation Talks(NET201)で語られた大切なこと
shotashiratori
0
310
KnowledgeBaseDocuments APIでベクトルインデックス管理を自動化する
iidaxs
1
270
フロントエンド設計にモブ設計を導入してみた / 20241212_cloudsign_TechFrontMeetup
bengo4com
0
1.9k
ハイテク休憩
sat
PRO
2
160
レンジャーシステムズ | 会社紹介(採用ピッチ)
rssytems
0
150
サーバレスアプリ開発者向けアップデートをキャッチアップしてきた #AWSreInvent #regrowth_fuk
drumnistnakano
0
200
NilAway による静的解析で「10 億ドル」を節約する #kyotogo / Kyoto Go 56th
ytaka23
3
380
株式会社ログラス − エンジニア向け会社説明資料 / Loglass Comapany Deck for Engineer
loglass2019
3
32k
How to be an AWS Community Builder | 君もAWS Community Builderになろう!〜2024 冬 CB募集直前対策編?!〜
coosuke
PRO
2
2.8k
マルチプロダクト開発の現場でAWS Security Hubを1年以上運用して得た教訓
muziyoshiz
3
2.4k
統計データで2024年の クラウド・インフラ動向を眺める
ysknsid25
2
850
re:Invent をおうちで楽しんでみた ~CloudWatch のオブザーバビリティ機能がスゴい!/ Enjoyed AWS re:Invent from Home and CloudWatch Observability Feature is Amazing!
yuj1osm
0
130
Featured
See All Featured
Java REST API Framework Comparison - PWX 2021
mraible
28
8.3k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
159
15k
No one is an island. Learnings from fostering a developers community.
thoeni
19
3k
A better future with KSS
kneath
238
17k
Building Applications with DynamoDB
mza
91
6.1k
Testing 201, or: Great Expectations
jmmastey
40
7.1k
How to train your dragon (web standard)
notwaldorf
88
5.7k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
1.2k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.5k
Designing Experiences People Love
moore
138
23k
Producing Creativity
orderedlist
PRO
341
39k
Transcript
OpsJAWS Meetup#21 システム運用アンチパターン のすすめ 2022-06-21 吉井 亮 1
自己紹介 吉井 亮 (Yoshii Ryo) 経歴: HWエンジニア → 中小SIer →
ERPコンサル → 現職(AWSパートナー) Twitter: @YoshiiRyo1 好きな言葉: no human labor is no human error 2
おすすめしたい システム運用アンチパターン ――エンジニアがDevOpsで解決する組織・自動化・コミュニケーション Jeffery D. Smith 著、田中 裕一 訳 2022年04月 発行 352ページ
https://www.oreilly.co.jp/books/9784873119847/ 3
本日の内容 『システム運用アンチパターン』を 紹介・抜粋しながら運用アンチパターンを 回避する策を考察します (Opsがメイン) 4
Let’s tweet #opsjaws #jawsug を付けながら 「あるある」「うちではこうだった」と つぶやいてもらえれば嬉しいです 5
『システム運用アンチパターン』対象読者 • 技術チームの運用担当 • 技術チームの開発担当 • これらのチームリーダーや一般エンジニア • 限られた権限しか持たない人を前提 6
『システム運用アンチパターン』の目次 1. DevOps を構成するもの 2. パターナリスト症候群 3. 盲目状態での運用 4. 情報ではなくデータ
5. 最後の味付けとしての品質 6. アラート疲れ 7 7. 空の道具箱 8. 業務時間外のデプロイ 9. せっかくのインシデント無駄に する 10. 情報のため込み 11. 命じられた文化 12. 多すぎる尺度
ベースとなる考え (CAMS) DevOps 文 化 自 動 化 メ ト
リ ク ス 共 有 8
ゲートキーパー 9
パターナリスト症候群 親子関係のように、強い立場にある者が 弱い立場に対して介入することを指す 例) 運用グループがシステム変更に対して 広範なレビュープロセスを実施する ❌ アンチパターン 10
パターナリスト症候群が進むと何がおきるか • 安全装置のはずの承認が障壁になる • 特定の人(達) だけが実行や承認をする → ゲートキーパー • ゲートキーパーと仕事するようになる
• 摩擦がおきる ❌ アンチパターン 11
自動化によりパターナリスト症候群の解消 手動プロセスをテクノロジーで自動化 🙅 承認は人間がするもの 🙅 12
承認の目的を把握 自動化するが承認の目的は果たす • 作業を継続するのに適切な状態である • 作業が発生していることを知らせる • アクションの衝突がない • 変更のリスクが許容できる範囲である
13
運用の自動化 14
自動化による改善 • 待ち時間 • 実行時間 • 実行頻度 • 実行のばらつき 15
自動化する • 自動化を文化とする • ツール開発運用をする人員の確保 • 手動での作業を良しとしない • 手動作業のコストを計算する •
自動化タスクに安全性を取り入れる 16
自動化に伴うリスクをプロット 低い 高い 高い [低リスク] 自動化 [中リスク] 処理の途中でユーザーに 確認を取るタイプの自動化 低い
[中リスク] 処理の途中でユーザーに 確認を取るタイプの自動化 [高リスク] 必要な情報は手動で 入力するタイプの自動化 間違えた場合の重大さ 自 信 の 度 合 い 17
デプロイの自動化 18
デプロイを日常的に行う • 正確な本番前環境 ◦ 違いが可能な限り少ない環境 ◦ コンテナ • 頻繁に行うことで恐怖心を減らす •
リスクを減らして恐怖心を減らす 19
デプロイ失敗への対応 • ロールバック可能なデプロイ ◦ Blue/Green, Canary, Rolling • アーティファクトの活用 •
破壊的変更は複数段階を経て 20
組織の文化 21
組織の文化 22 メインロビーに飾られているプレートではな く、具体的な形で存在しているべき 育て、発展させ、行動で示される
ピーター・ドラッカー 企業文化は戦略に勝る 23
文化とは あるグループの人々をほかのグループから 区別する、共有された価値観・習慣・信念 の集合体として定義される。 24
文化を根付かせるには? • 言葉による共有 • 物語による共有 • 習慣による共有 • 文化チーフ (文化的価値観を体現する人)
• 価値観を調べる • 文化に合った人材を見つける 25
開発・運用役割の変化 26
責任の変化 開発 → 自分たちが書いたコードが本番環境で どのように動くか詳細に理解 運用 → プロダクトの挙動を詳細に理解 27
AWS Well-Architected の話し 28 https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/fully-separated-operating-model.html
AWS Well-Architected の話し 29 https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/separated-aeo-and-ieo-with-centralized-governance-and-a-service-provider.html
ポストモーテム 30
インシデントの振り返りをしていますか? 31 • 責任のなすりあい • 自分は無実だと証明することに躍起 • 情報の壁 • 行動と人格
• トリプルチェックの導入 ❌ アンチパターン
良いポストモーテム • 非難のない文化 • システムの問題、プロセスの問題 • 24時間以内にポストモーテムを実施 • 今となっては明白でも同時はあいまい •
インシデントの全容解明が主目的 32
アクションアイテムの定義 • 可視化できていない箇所を可視化 • システムの可用性を向上させる • 誰がいつまでに何をするか ◦ 日常業務から離れることの理解 33
ポストモーテムのドキュメント化 • インシデントの詳細 • インシデントサマリー • インシデントウォークスルー • ポストモーテムの共有 34
アラートに疲れない 35
アラート基準 • Runbook を含める • 次の行動が可能である • タイムリー • 適切な優先順位付け
36
オンコールローテーション • 最初の連絡者(達)を定めたスケジュール • 1週間で交代 • アラートの重要度に合わせて通知手段を 変える (電話、Slack、メール等) 37
オンコールローテーションの配置 • 4人以上でローテーションを回す • プライマリ、セカンダリ • 精神的、肉体的負担への配慮 • 金銭的補償 •
代休 • 在宅対応 38
情報のため込み:ブレンドだけが知っている 39
情報のため込みを理解する 40 • 組織構造・インセンティブ・優先順位・ 価値観の組み合わせによって発生する • 意図的なためこみ • 意図しないためこみ
意図的なためこみ • ゲートキーパーになりたい 41
意図しないためこみ プロジェクトでは機能実装を優先した → ドキュメントは後回しになった → 落ち着いたと思ったら別プロジェクトへ 42
ドキュメント化 • 価値があるものはドキュメント化する • そうでなければ省略してもよい • 書くタイミング ◦ コード、インフラは陳腐化する •
抽象化 ◦ 要件、目的、他システム影響がある部分 43
ナレッジストアの構築 • ドキュメントを共有する • 検索しやすくする ◦ 階層化、タグ • 「ただ置く場所」にならないように •
習慣付け ◦ 学習~ドキュメント化~共有 44
情報のため込み方 • ストック ◦ ナレッジストア ◦ ブロク • フロー ◦
チャットツール ◦ SNS 45
最後に 46
おすすめしたい システム運用アンチパターン ――エンジニアがDevOpsで解決する組織・自動化・コミュニケーション Jeffery D. Smith 著、田中 裕一 訳 2022年04月 発行 352ページ
https://www.oreilly.co.jp/books/9784873119847/ 47
48 Thank you for your good ops.