Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
僕らの人生と学ぶ、Observabilityの重要性
Search
平目
February 16, 2024
Programming
0
230
僕らの人生と学ぶ、Observabilityの重要性
2024年2月16日に行われた、
AWS10分LT会 vol.3(
https://aws-likers.connpass.com/event/307986/
)に
登壇した時の資料になります。
平目
February 16, 2024
Tweet
Share
More Decks by 平目
See All by 平目
AmazonComprehendを用いて想いの伝わる文章を
hiramax
1
140
Other Decks in Programming
See All in Programming
PHPUnitしか使ってこなかった 一般PHPerがPestに乗り換えた実録
mashirou1234
0
400
どうして手を動かすよりもチーム内のコードレビューを優先するべきなのか
okashoi
3
840
create_tableをしただけなのに〜囚われのuuid編〜
daisukeshinoku
0
340
ISUCON14感想戦で85万点まで頑張ってみた
ponyo877
1
410
Stackless и stackful? Корутины и асинхронность в Go
lamodatech
0
1.3k
Fixstars高速化コンテスト2024準優勝解法
eijirou
0
180
Androidアプリのモジュール分割における:x:commonを考える
okuzawats
1
270
EC2からECSへ 念願のコンテナ移行と巨大レガシーPHPアプリケーションの再構築
sumiyae
3
560
Запуск 1С:УХ в крупном энтерпрайзе: мечта и реальность ПМа
lamodatech
0
910
ドメインイベント増えすぎ問題
h0r15h0
2
550
103 Early Hints
sugi_0000
1
330
PHPカンファレンス 2024|共創を加速するための若手の技術挑戦
weddingpark
0
120
Featured
See All Featured
Git: the NoSQL Database
bkeepers
PRO
427
64k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
113
50k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.4k
Producing Creativity
orderedlist
PRO
343
39k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.3k
Building Applications with DynamoDB
mza
92
6.1k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
3
340
Build your cross-platform service in a week with App Engine
jlugia
229
18k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.1k
A Philosophy of Restraint
colly
203
16k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
Transcript
僕らの人生と学ぶ、OBSERVABILITYの重要性 2024/02/16 平目
自己紹介 ➢ HN:平目 X(twitter):@hira0912 ➢ お仕事:AWS周りのインフラ構築 ➢ 趣味:ねこだいすき。 2
今日のテーマ モニタリング(Monitoring) オブザーバビリティ(Observability) 3
アジェンダ 監視の重要性 オブザーバビリティの目的 AWSにおけるオブザーバビリティ 4
監視の重要性 5
監視…やってますか? 何で導入するの…? いらなくない…? 6
何故監視を行うのか …という目的では ないですよね? 7
何故監視を行うのか 信頼性(サービスレベル) 8
重要な事 リリース後、システムは毎日古くなって行く 9
リリース時の思惑などアテにならない ぼくがかんがえた さいきょうのサービス システムの終焉 10
信頼性の重要性 信頼性はサービスの価値と同様に、 守り続けなければならないものである。 11
例:世界的に有名なサービス 結婚( Jinsei No Hakaba ) 世界中の開発者/利用者が、 独自にUI/UXをカスタマイズして サービスを開発/利用している。 12
例:世界的に有名なサービス=結婚 開発期間 リリース 運用期間 サービスの停止 13
例:世界的に有名なサービス=結婚 Q.何故サービスが停止する事になるのか? A.信頼性が守られなかったから 起きてしまった未知の問題に対し、 迅速に察知/対応が出来なかった。 監視/対応が重要 14
開発期間 リリース 運用期間 運用期間というのは開発期間に比べて圧倒的に長い 15
オブザーバビリティの目的 ※所感を含みます 16
重要な事 モニタリングには限界がある 17
モニタリングの限界:誰が監視/対応しているか 〇データ分析 ・メトリクス ・様々なログ 〇本人のスキル ・これまでの経験 ・第六感 ・セブンセンシズ システムに精通した シニアエンジニア
ではありませんか? 18
モニタリングの限界:超能力は継承出来ない 〇本人のスキル ・これまでの経験 ・第六感 ・セブンセンシズ 〇データ分析 ・メトリクス ・様々なログ シニアエンジニア 我々の進化先が
エスパータイプとは限らない 19
モニタリングの限界:シニアエンジニアの存在 特定の誰かに頼り切りの状態は 属人性が高く、システムの 信頼性を保つのにはリスクが伴う。 いつまでもその方が居て保守管理する前提 では無い方が、システムとして健全である。 20
モニタリングの限界:システムの変容 LAMPアーキテクチャ Linux Apache MySQL PHP Python or ⇒安定したサービスの組み合わせで、監視もし易かった 21
モニタリングの限界:サーバレスの登場 サーバレスや、コンテナサービスの登場 22
モニタリングの限界:モノリシックからマイクロサービス化へ 23 マイクロサービスを利用 する事で、メトリクス だけでは原因箇所の 特定が難しくなった。 特定不可
オブザーバビリティとは? システムから外部に出力されるデータから、 複雑化したシステムの内部の状態または状況を 理解および把握する能力のこと わからん 24
メトリクス/トレース/ログ 〇メトリクス ・CPU使用率やメモリ使用率な どの、粒度が荒いデータ。 ・大まかな現象把握に役立つ 〇ログ ・各種動作の詳細な結果を示す。 ・詳細な現象の原因特定に役立つ データ粒度 荒い
細かい 粒度の差が大きく、 経験やシステム内部の 知識が必要になり、 問題解決までの調査時間に 差が出てしまう 25
トレーシングの登場 26
メトリクス/トレース/ログ 〇メトリクス ・CPU使用率やメモリ使用率な どの、粒度が荒いデータ。 ・大まかな現象把握に役立つ 〇ログ ・各種動作の詳細な結果を示す。 ・詳細な現象の原因特定に役立つ データ粒度 荒い
細かい 〇トレース ・イベントの相関関係を知る事 が出来る。 ・現象部分の特定に役立つ 27
オブザーバビリティとは? システムから外部に出力されるデータから、 複雑化したシステムの内部の状態または状況を 理解および把握する能力のこと 特定の人物の知識や経験に依存せず、 興味・関心さえあれば観測出来る状態に システムが構成されていること 28
AWSにおけるオブザーバビリティ 29
オブザーバビリティに関するサービス ・メトリクス ・ログ ・アラーム ・トレース MC上は吸収 AWS Distro For OpenTelemetry
・OpenTelemetry用の AWS Distribution AWS Inspector ・EC2の ソフトウェア脆弱性管理 30
AWS X-RAY AWSにおける トレーシングを実現する為のシステム 31
AWS X-RAY 実行サンプル 補足:全てのリソースに X-Rayトレースを有効済 32
AWS X-RAY実例(正常系) ・トレースを有効にしておくことで、 ワークフロー図を定義する事なく 各サービスの相関関係を確認する事が出来る 33
AWS X-RAY実例(正常系) ・トレースを取る事で、 親スパンと子スパンの実行結果/所要時間といったインサイトを得る事も可能になる。 34
AWS X-RAY実例(異常系) ・子スパンの一部が実行不可だった 場合でも、それを容易に特定出来る 35
AWS X-RAY実例(異常系) ・全体の内のエラー率も明確になる事で、特定の事項がどれくらいの確率で 上手く行かないケースがあるのか、定量的に調査する事が可能になる。 36
AWS X-RAY実例(遅延) ・異常終了していないので、 エラー自体は取得出来ないが、 想定しているより処理が遅延しているケース 37
AWS X-RAY実例(遅延) ・各スパンの実行時間が計測できることにより、 対象のスパンのプログラム/構築をより良くなる様に見直す事が容易になる 38
重要な事 チームメンバが使える様に、 教育・周知・体験を 忘れない様にすること 普段から取り入れること 39
まとめ ・監視は信頼性を維持する為の機能 ・オブザーバビリティは、特定の誰かに依存せず 興味・関心さえあればシステムを調査出来る機能 ・機能の搭載のみに留まらず、教育等を行い、 システムの全容を把握出来る人材も増やしておきたい 40
参考文献 O’REILLY’ JAPAN オブザーバビリティ・エンジニアリング 41
さいごに ここまでご清聴ありがとうございました。 技術に関係無い事も多いですが、 X(Twitter)やqiitaの方でも活動しておりますので、 良かったらフォローお願いします。 42