Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AWS Well-Architected から考えるオブザーバビリティの勘所 / Consid...
Search
SMS tech
July 18, 2025
Technology
1
61
AWS Well-Architected から考えるオブザーバビリティの勘所 / Considering the Essentials of Observability from AWS Well-Architected
Japan Datadog User Group Meetup#11@福岡
https://datadog-jp.connpass.com/event/358184/
SMS tech
July 18, 2025
Tweet
Share
More Decks by SMS tech
See All by SMS tech
失敗ら再構築した開発推進チームの立ち上げ
sms_tech
0
23
一体いつから ――― DataLoader が 並列実行されていると錯覚していた?
sms_tech
0
230
カイポケリニューアル プロダクトマネジメントの現在地 / Where we are now with Kaipoke Renewal Product Management
sms_tech
0
990
ユーザーに向き合うデザインが介護・福祉の現場を変える / User-facing design changes the field of care and welfare
sms_tech
0
380
Amazon CloudWatchで小さく始めるWebサービスのオブザーバビリティ / How to start Observability for Web Sevices with Amazon CloudWatch
sms_tech
4
1.2k
SaaSのマーケティングを進めるサービスサイトを育てる取り組み / Designship 2024 Main Stage
sms_tech
1
1.7k
GitHub Actions で始める Salesforce CI
sms_tech
0
740
How to achieve full-stack Observability with AWS
sms_tech
1
380
フルスタックオブザーバビリティを AWSで実現する方法 / How to achieve full-stack Observability with AWS (ja)
sms_tech
1
420
Other Decks in Technology
See All in Technology
安定した基盤システムのためのライブラリ選定
kakehashi
PRO
3
130
IPA&AWSダブル全冠が明かす、人生を変えた勉強法のすべて
iwamot
PRO
2
230
An introduction to Claude Code SDK
choplin
2
660
ABEMAの本番環境負荷試験への挑戦
mk2taiga
5
1.3k
PHPからはじめるコンピュータアーキテクチャ / From Scripts to Silicon: A Journey Through the Layers of Computing
tomzoh
2
110
SRE不在の開発チームが障害対応と 向き合った100日間 / 100 days dealing with issues without SREs
shin1988
2
2k
60以上のプロダクトを持つ組織における開発者体験向上への取り組み - チームAPIとBackstageで構築する組織の可視化基盤 - / sre next 2025 Efforts to Improve Developer Experience in an Organization with Over 60 Products
vtryo
3
1.9k
毎晩の 負荷試験自動実行による効果
recruitengineers
PRO
5
170
ClaudeCode_vs_GeminiCLI_Terraformで比較してみた
tkikuchi
1
700
SREのためのeBPF活用ステップアップガイド
egmc
2
1.3k
データ戦略部門 紹介資料
sansan33
PRO
1
3.3k
対話型音声AIアプリケーションの信頼性向上の取り組み
ivry_presentationmaterials
3
1k
Featured
See All Featured
Rails Girls Zürich Keynote
gr2m
95
14k
The World Runs on Bad Software
bkeepers
PRO
70
11k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
8
340
Mobile First: as difficult as doing things right
swwweet
223
9.7k
The Pragmatic Product Professional
lauravandoore
35
6.7k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3.1k
BBQ
matthewcrist
89
9.7k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
750
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.7k
Unsuck your backbone
ammeep
671
58k
Producing Creativity
orderedlist
PRO
346
40k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Transcript
© SMS Co., Ltd. 加我 貴志 (株式会社エス・エム・エス) Japan Datadog User
Group Meetup#11@福岡 (2025/07/18) AWS Well-Architected から考える オブザーバビリティの勘所
© SMS Co., Ltd. 本日の発表は文字多めです
© SMS Co., Ltd. 自己紹介 • 加我 貴志 ( TAKA_0411)
• 株式会社エス・エム・エス プロダクト推進本部 カイポケ開発部 • Media-JAWS / JAWS-UG札幌運営 • JDDUG 札幌運営メンバー (1) • 気になるサービス : Bits AI SRE
© SMS Co., Ltd. JDDUG 札幌運営メンバー (1) https://x.com/k6s4i53rx/status/1927667815429161451
© SMS Co., Ltd. 突然ですが AWS Well-Architected ご存知ですか?
© SMS Co., Ltd. AWS Well-Architected (1) AWS Well-Architected https://aws.amazon.com/jp/architecture/well-architected/
© SMS Co., Ltd. AWS Well-Architected (2) AWS Well-Architected https://aws.amazon.com/jp/architecture/well-architected/
© SMS Co., Ltd. つまり AWS Well-Architected とは - AWSにおける設計や運用のベストプラクティスの指針
- 6つの柱 (カテゴリ) で構成されている - 特定の業界やテクノロジー領域に広げたものや、 特定のユースケース、テクノロジーに焦点を当てたものもある
© SMS Co., Ltd. ここで問題です
© SMS Co., Ltd. オブザーバビリティに関する柱はどれでしょう AWS Well-Architected https://aws.amazon.com/jp/architecture/well-architected/
© SMS Co., Ltd. 正解は・・・
© SMS Co., Ltd. オペレーショナルエクセレンスの柱でした AWS Well-Architected https://aws.amazon.com/jp/architecture/well-architected/
© SMS Co., Ltd. オペレーショナル エクセレンス
© SMS Co., Ltd. オペレーショナルエクセレンス (1) オペレーショナルエクセレンス https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/framework/operational-excellence.html 運用上の優秀性 (OE)
とは、優れたカスタマーエクスペリエンスを着実 に提供しながら、ソフトウェアを正しく構築する取り組みです。 運用上の優秀性の柱となるのは、チームの編成、ワークロードの設計、 ワークロードの大規模な運用、経時的な進化のためのベストプラクティス です。 お客様に満足してもらうため、チー ムで協力しシステムを安全・効率的 に動かし続けること
© SMS Co., Ltd. オペレーショナルエクセレンス (2) オペレーショナルエクセレンス https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/framework/operational-excellence.html 運用上の優秀性を実現するための設計原則 -
ビジネス成果を中心にチームを編成する - オブザーバビリティを実装して実用的なインサイトを得る - 可能な場合は安全に自動化する - 小規模かつ可逆的な変更を頻繁に行う - オペレーション手順を頻繁に改善する - 障害を予測する - 運用上のイベントとメトリクスから学ぶ - マネージドサービスを使用する
© SMS Co., Ltd. オブザーバビリティの 実装 準備
© SMS Co., Ltd. オブザーバビリティの実装 - OPS04-BP01 主要業績評価指標を特定する - OPS04-BP02
アプリケーションテレメトリを実装する - OPS04-BP03 ユーザーエクスペリエンステレメトリを実装する - OPS04-BP04 依存関係のテレメトリを実装する - OPS04-BP05 分散トレースを実装する
© SMS Co., Ltd. OPS04-BP01 主要業績評価指標を特定する OPS04-BP01 主要業績評価指標を特定する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html これは何か
オブザーバビリティを実装するためにはワークロードの状態を理解し、 ビジネス目標に直結するKPIの定義に基づいてモニタリングを行う。 なぜやるのか KPIは技術的なメトリクスよりも問題発生時の特定やビジネスへの影響把握が容易であり、 モニタリングアクティビティがビジネス成果につながっていることを確認できる。 主なアンチパターン ビジネスの成果と直接の相互関係がない、または実際の問題との関連性が 明らかでない技術的なメトリクスに重点が置かれている。
© SMS Co., Ltd. OPS04-BP02 アプリケーションテレメトリを実装する OPS04-BP02 アプリケーションテレメトリを実装する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_observability_application_telemetry.html これは何か
ワークロードの状態やビジネスの成果に関するテレメトリを送出するため、 メトリクス、ログ、トレースといった主要なテレメトリを利用する。 なぜやるのか ワークロードのパフォーマンスに関するインサイトを活用することで、パフォーマンスの 最適化に関する意思決定や運用の効率化、CI/CDの合理化、リソースの最適化につながる。 主なアンチパターン データが複数のツールやシステムに分散している場合、ワークロードの状態と パフォーマンスを包括的に把握することが困難になる。
© SMS Co., Ltd. OPS04-BP03 ユーザーエクスペリエンステレメトリを実装する OPS04-BP03 ユーザーエクスペリエンステレメトリを実装する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_observability_customer_telemetry.html これは何か
リアルユーザーモニタリングや合成トランザクションを利用し、 ユーザー体験の質を可視化する。 なぜやるのか ユーザーエクスペリエンステレメトリを実装することで、システムの健全性と顧客満足度の 向上が期待でき、実際のユーザーに影響が及ぶ前に潜在的な問題を検出できる。 主なアンチパターン このテレメトリを実装しない場合、ユーザーからの苦情があるまでパフォーマンスの ボトルネックや問題に気付けずユーザーの満足度に影響を及ぼす可能性がある。
© SMS Co., Ltd. OPS04-BP04 依存関係のテレメトリを実装する OPS04-BP04 依存関係のテレメトリを実装する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_observability_dependency_telemetry.html これは何か
ワークロードが依存する外部サービスのテレメトリを出力し、 外部サービスの状態とパフォーマンスを可視化する。 なぜやるのか ワークロードを支える依存関係が期待どおりに機能し、潜在的な障害やボトルネックを 早期に発見・対処することでワークロード全体のパフォーマンスと健全性を維持できる。 主なアンチパターン アプリケーションのメトリクスのみを重視し、外部の依存関係に関連するメトリクスを おろそかにすると問題の発見を遅らせてしまう。
© SMS Co., Ltd. OPS04-BP05 分散トレースを実装する OPS04-BP05 分散トレースを実装する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_observability_dist_trace.html これは何か
分散システムのリクエストをモニタリングし、リクエストの流れや ワークロードに発生している問題を把握する。 なぜやるのか 分散システムを通過するリクエストを包括的に把握することにより、正確なデバッグ、 パフォーマンスの最適化、ユーザー体験の向上が期待できる。 主なアンチパターン 一部サービスのみでトレースを実装し、全体像が把握できていない。
© SMS Co., Ltd. ワークロードの オブザーバビリティ活用 運用
© SMS Co., Ltd. ワークロードのオブザーバビリティの活用 - OPS08-BP01 ワークロードメトリクスを分析する - OPS08-BP02
ワークロードログを分析する - OPS08-BP03 ワークロードのトレースを分析する - OPS08-BP04 実践的なアラートを作成する - OPS08-BP05 ダッシュボードを作成する
© SMS Co., Ltd. OPS08-BP01 ワークロードメトリクスを分析する OPS08-BP01 ワークロードメトリクスを分析する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_analyze_workload_metrics.html これは何か
アプリケーションテレメトリを実装したら収集したメトリクスを定期的に分析する。 なぜやるのか ワークロードのパフォーマンスを正確に把握することで、データに基づいた 意思決定ができるようになり、ビジネス目標と合致させることができる。 主なアンチパターン ビジネス上のメトリクスを重視せず、過度に技術メトリクスに頼ってしまったり、 メトリクスを定期的に見直さないために変化や異常を見逃している。
© SMS Co., Ltd. OPS08-BP02 ワークロードログを分析する OPS08-BP02 ワークロードログを分析する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_analyze_workload_logs.html これは何か
ワークロードの動作やパフォーマンス、セキュリティといった問題を把握するため、 ワークロードログを定期的に分析・可視化する。 なぜやるのか 詳細なログ分析を行うことでアプリケーションの動作と運用に関するインサイトが得られ、 運用上のボトルネックやセキュリティリスクを事前に検出できる。 主なアンチパターン 重大なインシデント時のみログを見る対応や、ツールを十分に活用せず 手動での確認に頼る運用、分析そのものを怠り重要なインサイトを見逃している。
© SMS Co., Ltd. OPS08-BP03 ワークロードのトレースを分析する OPS08-BP03 ワークロードのトレースを分析する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_analyze_workload_traces.html これは何か
コンポーネント間の相互作用を可視化して把握し、パフォーマンスチューニング、 ボトルネックの特定、ユーザーエクスペリエンスの向上に活用する。 なぜやるのか アプリケーションやサービスの間で発生する処理の流れを可視化することにより、 各コンポーネントのパフォーマンスや依存関係、エラーの根本原因を特定できる。 主なアンチパターン ログとメトリクスのみに依存しておりトレースデータを見落としてしまったり、 トレースデータが関連するログと関連付けられていない。
© SMS Co., Ltd. OPS08-BP04 実践的なアラートを作成する OPS08-BP04 実践的なアラートを作成する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_create_alerts.html これは何か
業務やシステムにインパクトがあるような重要なアラートを設定する。 なぜやるのか KPIと連動したアラートを設定することでビジネスへの影響が小さい警告や 無関係なアラートの乱発を避け、ノイズによる「アラート疲れ」を防止する。 主なアンチパターン 重要ではないアラートが多すぎて、本当に重大なインシデントを見逃してしまったり、 KPIによる優先度付けがなくて対応の優先順位がつけられない。
© SMS Co., Ltd. OPS08-BP05 ダッシュボードを作成する OPS08-BP05 ダッシュボードを作成する https://docs.aws.amazon.com/ja_jp/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_create_dashboards.html これは何か
ワークロードのテレメトリデータを視覚化するダッシュボードを構築し、 システムやビジネスの状態をリアルタイムに把握・共有する。 なぜやるのか 重要なKPIとシステムメトリクスを即座に可視化し、 システムの健全性やビジネス成果に関するインサイトを即座に提供できる。 主なアンチパターン メトリクスが多すぎてダッシュボードが複雑化し使いにくくなってしまったり、 システムやワークロードの変更にダッシュボードが追従できていない。
© SMS Co., Ltd. まとめ
© SMS Co., Ltd. まとめ - オブザーバビリティを実装・活用するうえで AWS Well-Architected はとても参考になります
- Datadogをより上手に活用するための指針としても オペレーショナル・エクセレンスの章はオススメです - 改めてビジネスと連携したモニタリングアクティビティが できているのかを振り返ってみませんか?