Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
監視論 ~SREと次世代MSP~
Search
Qryuu
September 13, 2020
Technology
10
4.8k
監視論 ~SREと次世代MSP~
ITシステム監視を何故行うのか
なぜ監視からオブザーバビリティーが求められるのか
次世代MSP、今後の監視エンジニアに求められる能力とは
Qryuu
September 13, 2020
Tweet
Share
More Decks by Qryuu
See All by Qryuu
監視論Ⅳ ~監視からオブザーバビリティーへの招待~
qryuu
0
330
人体モニタリングによる運動療法継続
qryuu
0
140
オブザーバビリティで理解するコンピュータサイエンス
qryuu
1
1.4k
監視とは何か ~監視エンジニアのスキルと成長~
qryuu
8
8.5k
Other Decks in Technology
See All in Technology
Flutterによる 効率的なAndroid・iOS・Webアプリケーション開発の事例
recruitengineers
PRO
0
120
Introduction to Works of ML Engineer in LY Corporation
lycorp_recruit_jp
0
140
New Relicを活用したSREの最初のステップ / NRUG OKINAWA VOL.3
isaoshimizu
3
630
OCI 運用監視サービス 概要
oracle4engineer
PRO
0
4.8k
Lexical Analysis
shigashiyama
1
150
[CV勉強会@関東 ECCV2024 読み会] オンラインマッピング x トラッキング MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping (Chen+, ECCV24)
abemii
0
230
誰も全体を知らない ~ ロールの垣根を超えて引き上げる開発生産性 / Boosting Development Productivity Across Roles
kakehashi
1
230
Making your applications cross-environment - OSCG 2024 NA
salaboy
0
190
エンジニア人生の拡張性を高める 「探索型キャリア設計」の提案
tenshoku_draft
1
130
テストコード品質を高めるためにMutation Testingライブラリ・Strykerを実戦導入してみた話
ysknsid25
7
2.7k
アジャイルでの品質の進化 Agile in Motion vol.1/20241118 Hiroyuki Sato
shift_evolve
0
170
ExaDB-D dbaascli で出来ること
oracle4engineer
PRO
0
3.9k
Featured
See All Featured
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
Become a Pro
speakerdeck
PRO
25
5k
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
The Pragmatic Product Professional
lauravandoore
31
6.3k
Imperfection Machines: The Place of Print at Facebook
scottboms
265
13k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
1.9k
Code Review Best Practice
trishagee
64
17k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
109
49k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
jQuery: Nuts, Bolts and Bling
dougneiner
61
7.5k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
47
2.1k
Unsuck your backbone
ammeep
668
57k
Transcript
監視論 ~SREと次世代MSP~ OpsJaws
自己紹介 ▪ PN:九龍真乙 ▪ Twitter: @qryuu ▪ SlideShre: https://www.slideshare.net/qryuu ▪
GitHub: https://github.com/qryuu ▪ クックパッド: https://cookpad.com/kitchen/4142562 ▪ Youtube: https://www.youtube.com/channel/UCcPidyLCfGp49pmF4Zb761Q ▪ 専門:New Relic, Zabbix, テクニカルサポート, クラウドアーキテクト ▪ 所属:OpsJAWSコアメンバー、New Relic株式会社、Zabbixユーザー会 2
セッションの目的 3
セッションの目的 ▪ 監視ツール、監視SaaSなどITシステム監視に関する ツールや仕組みについては多くのドキュメントがあります。 しかしそもそもITシステム監視そのものについてはあまり語ら れる事がありません。 ▪ 特定の監視ツールや監視サービスについてではなく ITシステム監視そのものの定義や意義、監視サービスのあるべ き未来や可観測性(オブザーバビリティー)について考察しま
す。 ▪ マイクロサービスやSREといった変化のなかでMSP事業者や モニタリングエンジニアの生存戦略ついてかんがえます。 4
セッションの目的 ▪ ITシステム監視とは何か ▪ 監視エンジニアの未来 ▪ SREとアウトソーシングの関係 5
ITシステム監視とは 6
ITシステム監視とは ▪ プロセス監視 ▪ 機器監視 ▪ アプリケーション性能監視 ▪ リアルユーザーモニタリング ▪
ログ監視 ▪ 可観測性(オブザーバビリティー) 7
ITシステム監視とは ▪ システム監視の目的はシステムの安定稼働 ▪ システム稼働効率の最適化 ▪ アプリケーションの改善 8
監視システムの4要素 9
監視システムの4要素 ▪ 収集 ▪ 判定 ▪ 通知 ▪ 分析 ▪
単一のソフトやサービスによって全てを実現する場合もあれば、 複数のソフトウェアやサービスを組み合わせて機能を満たす場 合もあります。 10
収集 ▪ 対象システムやセンサー、ネットワーク機器等からデータを集 める。 ▪ CPU使用率やメモリ使用率、ディスク情報やネットワーク負荷 ログ情報や環境データの収集を行う。 11
収集 ▪ 標準的なプロトコルやAPIにより監視ツールなどにデータ提供 を行う対象システム ▪ 監視システム独自Agentによって対象システムからデータ収集 を行う ▪ 対象システム自身の状態確認コマンド、統計コマンドにより出 力される情報をスクリプトやAgent等により収集する場合もあ
る。 12
判定 ▪ 収集により集められたデータに対して、正常・障害/ノーマ ル・アラートなどの判定を行う。 ▪ 判定では、「イコール/ノットイコール」や「含む/含まない」、 「以上/以下(超過/未満)」 などにより、数値判定、文字列判定を行う。 ▪ 2015年ごろから、近似計算による将来値予測を行いこの予測
値に対する判定を行うシステムも登場している。 ▪ 複数の条件やAIの利用など判定の高度化も行われている 13
通知 ▪ 通知先は人間とは限らない ▪ システムに通知する=自動復旧・自律制御 ▪ 何のために通知するのか=通知するけど静観は意味が無い ▪ 通知した後のフローを意識して通知条件を設計する ▪
通知を受けた人物が「決断」「操作」する必要がある場合に 通知する 14
分析 ▪ ソース – 収集されたデータ – 判定の頻度 ▪ 目的 –
現状把握 – 将来予測 ▪ 効果 – ボトルネックの判断 – ボトルネックの移動予測 – コスト最適化 15
分析 ▪ 分析は立案である ▪ 監視は終端ではなく先端 ▪ 分析に必要な能力は勘ではなく知識 16
オブザーバビリティー ▪ 現象ではなく、その原因を探る ▪ 収集対象を増やし分析をリアルタイムにより深化させる。 ▪ 監視:異常検知 ▪ オブザーバビリティー:原因究明 17
なぜ可視化するのか 18
なぜ可視化するのか ▪ 監視対象データは時系列データ ▪ 瞬間値ではなく、値の推移が意味を持つ ▪ 数値表を眺めるのではなくグラフ化することで変曲点が把握で きる。 ▪ ボトルネック分析やシステム負荷ではデータ同士の相関やス
ケール変更が重要 ▪ データアナリストやデータサイエンティストに繋がる経験 19
MSPという業態 20
MSPという業態 ▪ MSP(Managed Service Provider) ▪ MSP(Monitoring Service Provider) ▪
MSPは本来運用サービスを提供するものであるが、実体として は監視サービスを提供し、サービス運用についてはエンドユー ザの指示に従うような業態となっている。 21
MSPという業態 ▪ AWSがMSPパートナープログラムとして、「Next Generation MSP」としてパートナー要件を定義 ▪ MSPに高度なナレッジ、システムの自動化、DevOpsの実現な どが求められた。 22
MSPという業態 ▪ DevOps=開発・SIer機能 ▪ ナレッジ提供=コンサルティング機能 ▪ 24-365=カスタマーサポート機能 23
SREの役割 24
SREの役割 ▪ SRE(Site Reliability Engineering) ▪ 運用のためのコードを書く ▪ 開発者が運用を行うという思想 ▪
SREとはITサービス企業自身の役割でありMSPのようなアウト ソーサーとして提供する事に向いたロールでは無い。 ▪ 少なくとも業態や関係性を変える必要がある 25
監視の役割は開発ではない 26
監視エンジニアとしての価値 ▪ SREが登場した当時DevOpsの文脈が強くOpsやSREも開発を 行うという総員コーダーのような雰囲気が強くなった。 ▪ OpsやSREの本領はパフォーマンスの分析でありそこで求めら れる能力は統計やログ解析、アプリケーション解析である。 ▪ 大規模SaaSではSREとソフトウェアデペロッパーは別のチー ム
▪ SREやOpsに求められる役割は根拠となるデータを示し、設計 フェイズに対してフィードバックを行う事 27
知識と技術 28
知識と技術 論理 センス 知識 技術 学者 職人 コンピュータサイエンス プログラミング Opsの特性
Devの特性 29
知識と技術 ▪ どちらが優れているではなく人類が進歩するために必要な両輪 ▪ 天才的とされる人材は1人で両方のスキルを兼ね備える場合も あるが、組織設計においては本来両方が補完関係にあるべき 30
設計と監視 Opsサンドイッチ 31
設計と監視 Opsサンドイッチ 32
設計と監視 Opsサンドイッチ ▪ インフラモニタリング – →スレッドプログラミングの偏り・メモリリーク検知 ▪ ミドルウェアモニタリング – コネクションプーリング実装の不備検知
▪ アプリケーションパフォーマンスモニタリング – 非効率な再帰呼び出し実装検知 – cache実装の不備検知 ▪ 値から意味を読み取り設計へとフィードバックすることがこれ からのMSP事業者やSREに求められる 33
MSPがこの先生きのこるためには 34
MSPがこの先生きのこるためには ▪ MSP事業者やSREは読影能力や設計能力を高める事が重 要である。 ▪ 読影能力=分析 ▪ 分析で必要となるのはコンピュータサイエンスの知識 35
MSPやSREを活かす開発体制 ▪ 分析に基づくフィードバックを適切にソフトウェアの実装に反 映する開発体制が必要 ▪ フィードバックを反映しその効果を確認するまでの期間は1週 間以内長くとも1ヶ月以内が理想的 ▪ ショートウォーターフォール、アジャイルモデル 36
©2008–20 New Relic, Inc. All rights reserved Webinars in September
Your Name Here September 2, 2020
©2008–20 New Relic, Inc. All rights reserved New Relic はじめの一歩
(概要編) 38 全世界で17,000社、日本国内でも既に数百社が導入・活用しているNew Relic。本ウェビナーでは、New Relic とはいったい何なのか?どのよう なことができるのか?といった全体像を理解できる初心者向けのセッ ションです。 New Relic は、モバイルやブラウザのエンドユーザーモニタリングや、 外形監視、バックエンドのアプリケーションとインフラモニタリング など、オンプレやクラウド、コンテナからサーバレスまであらゆるシ ステム環境での性能管理を実現するプラットフォームです。できるこ とが多種多様にわたるプラットフォームであるため、New Relic で何が できるのかその全体像をまずは理解したい方に最適です。 対象:New Relic で何ができるのかまずは理解したい方 9月17日 16:00 - 17:00 New Relic University 101 : Overview Walk-through ©2008–20 New Relic, Inc. All rights reserved このウェビナーに参加する
©2008–20 New Relic, Inc. All rights reserved New Relic はじめの一歩
(ハンズオン) 39 本ウェビナーは、New Relic の全体概要は理解しているが、実際に操作 することで理解を深めたい方向けのハンズオントレーニングです。 New Relic One のコアとなる Full stack Observability の中から中核昨日 となるAPM、Infrastructure、そして Alert と Dashboard 作成についてハ ンズオントレーニングで学びます。 New Relic のテクニカルサポートエンジニアやモデレーターが、初歩的 な質問から細かい質問まで答えられる限り回答して参りますので、ざ っくばらんにお問い合わせください。 対象:New Relic を理解しているがまだ触ったことのない方 9月24日 16:00 - 18:00 New Relic University 102 : Full Stack Observability Hands-On Training ©2008–20 New Relic, Inc. All rights reserved このウェビナーに参加する
©2008–20 New Relic, Inc. All rights reserved New Relic の
Webinar 登録でもらえる 40 New Relic のウェビナーにご登録いただくと、参加の可否にかかわらず ウェビナー実施後に Nerd 御用達、ブラックでキメた New Relic Swag にご応募いただけます。在庫がなくなり次第の終了です。 Nerd Mask (限定300枚) Stay Home を IP アドレスとサブネットマスクで表現した Nerd なマス ク。そんじょそこらでは思いつかない Nerd なメッセージスタイルは、 わかる人にだけはわかるという、厄介なスタイルを表現しています。 データニャード Tシャツ (限定300枚) データナード (データ分析オタク)をもじってデータニャードと読み替え ることから生まれた New Relic 猫型データアナリスト。大量に生産され るもオフラインイベントの尽くのキャンセルで行き場を失い、そのデ ータを見通すシャープな眼差しは、飼い主を求めて虚空を見つめます 。 Nerd Mask & データニャード 注意 : 該当アイテムは予告なく変更される可能性がございます。