Upgrade to Pro — share decks privately, control downloads, hide ads and more …

サービスメッシュ環境における OpenTelemetry 活用 / OpenTelemetry in Service Mesh

サービスメッシュ環境における OpenTelemetry 活用 / OpenTelemetry in Service Mesh

逆井(さかさい)

March 25, 2024
Tweet

More Decks by 逆井(さかさい)

Other Decks in Technology

Transcript

  1. #otel_casual 柏原 由紀 逆井(さかさい) @ k6s4i53rx ◆ OpenTelemetry Casual Talk

    ◆ サービスメッシュ環境における OpenTelemetry 活用
  2. お前だれ(逆井) ◆ 2024/03/25 OpenTelemetry Casual Talk ◆ intro_po.yaml 1 2

    3 4 5 6 7 8 9 10 11 12 13 14 15 Kind: バックエンドエンジニア と SRE Hobby: - スノーボード:バックカントリー、気になっています - ゴルフ:絶望的なカットスイング軌道を、       強烈なストロンググリップで相殺するスタイル - 最近、Otel への eBPF 活用につよく興味があります Community: - OpenTelemetry Meetup スタッフ 逆 井 啓 佑 さかさい 逆井(さかさい) @ k6s4i53rx
  3. お前だれ(柏原) ◆ 2024/03/25 OpenTelemetry Casual Talk ◆ 柏原 由紀 •

    NTTデータグループ • 技術革新統括本部 クラウド技術部 • これまでの技術領域 ▪ クラウド(AWS/Azure) ▪ PaaS(K8S/istio、PCF) ▪ MSA(Go/Nodejs/React) ▪ アジャイル(Scrum、SAFe) 現在の案件 ▪ 社内向けのシステム開発を複数チームで実施
  4. 本日 30 分くらいでお話しすること ◆ 2024/03/25 OpenTelemetry Casual Talk ◆ 10分

    20分 ▶▷▶ 第一部:理論編 サービスメッシュ環境で OTel を活用した分散トレース手法について紹介 • 分散トレースの基礎知識(コンテキスト伝播など) • サービスメッシュ環境における Envoy を用いた分散トレース ▶▷▶ 第二部:事例編 実際のサービスメッシュ案件での OpenTelemetry を使った分散トレースや、 オブザーバビリティ周辺のシステム構成について紹介 • オブザーバビリティ周りの課題 • 各種ツールを用いてどのように解決をしたか(しようとしているか)
  5. 第一部:サービスメッシュについて ◆ 2024/03/25 OpenTelemetry Casual Talk ◆ プロキシ プロキシ サービス

    サービス Control Plane 通信 通信 通信 管理 図:サービスメッシュの概要 マイクロサービスに 共通的な機能を透過的に具備 することができる。 サービスメッシュは、 • サービス間通信にプロキシ配置 • プロキシ群をコントロール プレーンが管理する ネットワークモデル
  6. 第一部:サービスメッシュについて ◆ 2024/03/25 OpenTelemetry Casual Talk ◆ マイクロサービスに 共通的な機能を透過的に具備 することができる。

    通信暗号化 サービス間認証認可 オブザーバビリティ! etc... プロキシ プロキシ サービス サービス Control Plane 通信 通信 通信 管理 サービスメッシュは、 • サービス間通信にプロキシ配置 • プロキシ群をコントロール プレーンが管理する ネットワークモデル 図:サービスメッシュの概要
  7. 第一部:サービスメッシュについて ◆ 2024/03/25 OpenTelemetry Casual Talk ◆ The Istio service

    mesh: https://istio.io/latest/about/service-mesh/ サービスメッシュの実装として、 • Istio, Linkerd, ... (OSS) • Anthos Service Mesh (GKE) App Mesh (EKS) … ▶▷ Istio • プロキシに Envoy を使用 • Envoy の設定を抽象化してくれる ◦ Istio CR として設定できる • Envoy が実現するたくさんの 機能の一つに「分散トレース」 がある 参考:【Istio⛵】Istioによって抽象化されるEnvoyのHTTPSリクエスト処理の仕組み     https://hiroki-hasegawa.hatenablog.jp/entry/2024/01/16/013404
  8. 分散トレースの主な構成要素 第一部:分散トレースとか、コンテキスト伝播とか ◆ 2024/03/25 OpenTelemetry Casual Talk ◆ A B

    E C D A B C D E 参考:https://www.jaegertracing.io/docs/1.45/architecture/ • トレース・・・・・・・・リクエストの 一連の流れ を示す • スパン・・・・・・・・・トレースの構成要素で、特定の処理 を示す • トレースコンテキスト・・分散トレースする上で必要な情報 コンテキスト コンテキスト コンテキスト トレース コンテキスト スパン
  9. 第一部:分散トレースとか、コンテキスト伝播とか ◆ 2024/03/25 OpenTelemetry Casual Talk ◆ 参考:https://docs.lightstep.com/docs/understand-distributed-tracing トレースコンテキストにより Waterfall

    Graph の描画に必要な情報が伝播していく。 Trace ID:ABC Span ID:123 Parent SpanID:null Trace ID:ABC Span ID:456 Parent SpanID:123 Trace ID:ABC Span ID:789 Parent SpanID:123 Trace ID:ABC Span ID:890 Parent SpanID:789 トレース Trace ID:ABC トレース ID は固有 親 Span が同じ トレースコンテキストの伝播 トレースコンテキスト ( Context Propagation )
  10. サービス間のトレースコンテキスト伝播 第一部:分散トレースとか、コンテキスト伝播とか ◆ 2024/03/25 OpenTelemetry Casual Talk ◆ サービス間では HTTP

    ヘッダを使って、トレースコンテキストを伝播させます。 incoming request outgoing request Extract Inject <Header> Trace ID Span ID 等 <Header> Trace ID Span ID 等 トレースコンテキストを伝播するフォーマット • W3C Trace Context • B3 multi-header • Datadog • e.t.c...
  11. W3C Trace Context 形式で伝播する場合、 {traceparent: <version>-<trace-id>-<span-id>-01}      (例):00-0af7651916cd43dd8448eb211c80319c-b7ad6b7169203331-01 第一部:分散トレースとか、コンテキスト伝播とか ◆ 2024/03/25

    OpenTelemetry Casual Talk ◆ サービス間では HTTP ヘッダを使って、トレースコンテキストを伝播させます。 トレースコンテキストを伝播するフォーマット • W3C Trace Context • B3 multi-header • Datadog • e.t.c... 参考:https://www.w3.org/TR/trace-context/ incoming request outgoing request Extract Inject <Header> Trace ID Span ID 等 <Header> Trace ID Span ID 等 サービス間のトレースコンテキスト伝播
  12. 第一部:サービスメッシュと OpenTelemetry? ◆ 2024/03/25 OpenTelemetry Casual Talk ◆ • Envoy

    の機能の一つの「分散トレース」がある ◦ リクエストの ingress / egress でスパンの生成 / コンテキスト伝播 • OpenTelemetry とのインテグレーションがある! ◦ W3C Trace Context でヘッダを伝播 ( B3 や Datadog 形式の設定も可能 ) ◦ Envoy の生成したスパンを OTLP 形式でトレースバックエンドに送信 Envoy App Envoy App Envoy App Trace Backend Service 例えば Jaeger… https://istio.io/latest/docs/tasks/observability/telemetry/
  13. 第一部:サービスメッシュと OpenTelemetry? ◆ 2024/03/25 OpenTelemetry Casual Talk ◆ Envoy App

    Envoy App Envoy App Egress Span Ingress Span Egress Span Ingress Span Trace Backend Service OTLP スパン 例えば Jaeger… • Envoy の機能の一つの「分散トレース」がある ◦ リクエストの ingress / egress でスパンの生成 / コンテキスト伝播 • OpenTelemetry とのインテグレーションがある! ◦ W3C Trace Context でヘッダを伝播 ( B3 や Datadog 形式の設定も可能 ) ◦ Envoy の生成したスパンを OTLP 形式でトレースバックエンドに送信
  14. 第一部:サービスメッシュと OpenTelemetry? ◆ 2024/03/25 OpenTelemetry Casual Talk ◆ Envoy App

    Envoy App Envoy App Egress Span Ingress Span Egress Span Ingress Span Trace Backend Service OTLP トレース コンテキスト スパン 例えば Jaeger… • Envoy の機能の一つの「分散トレース」がある ◦ リクエストの ingress / egress でスパンの生成 / コンテキスト伝播 • OpenTelemetry とのインテグレーションがある! ◦ W3C Trace Context でヘッダを伝播 ( B3 や Datadog 形式の設定も可能 ) ◦ Envoy の生成したスパンを OTLP 形式でトレースバックエンドに送信
  15. 第一部:サービスメッシュと OpenTelemetry? ◆ 2024/03/25 OpenTelemetry Casual Talk ◆ Envoy App

    Envoy App Envoy App Egress Span Ingress Span Egress Span Ingress Span Trace Backend Service OTLP トレース コンテキスト スパン アプリでの コンテキストの 伝播は必要 例えば Jaeger… • Envoy の機能の一つの「分散トレース」がある ◦ リクエストの ingress / egress でスパンの生成 / コンテキスト伝播 • OpenTelemetry とのインテグレーションがある! ◦ W3C Trace Context でヘッダを伝播 ( B3 や Datadog 形式の設定も可能 ) ◦ Envoy の生成したスパンを OTLP 形式でトレースバックエンドに送信
  16. 第一部:サービスメッシュと OpenTelemetry? ◆ 2024/03/25 OpenTelemetry Casual Talk ◆ Envoy App

    Envoy App Envoy App Egress Span Ingress Span Egress Span Ingress Span Trace Backend Service OTLP アプリケーション側で、スパンの生成やエクスポーターを行わず、 アプリケーションへのコード変更のコスト低く、 サービスメッシュ環境で透過的に分散トレースの仕組みをマイクロサービスに実装 ※ アプリケーションでコンテキスト伝播は必要であることに注意 (OTel の Propagate API, 自前実装) トレース コンテキスト スパン 例えば Jaeger…
  17. ー ここまでのまとめ ー • Envoy に分散トレースの一部をオフロードして、アプリ側の計装コスト減 ◦ サービスメッシュ環境で透過的に分散トレース ◦ サービス単位でのボトルネックを探る上では

    Good • とはいえ、可能ならばアプリ側の計装も行う方が良い ◦ テレメトリーの関連付け (correlate) や、ディメンションを高める観点 においても重要 ◦ 特殊事情でアプリ変更をフッ軽にできない場合はサービスメッシュで「荒く、横断的に」でも有効 • アプリ計装 + Envoy のトレースの場合、Envoy 起因の性能問題にも有効 ◦ アプリを OTel で計装して、Envoy のトレースと結合してきめ細かいトレース取得が可能 ◦ トレースデータの増加や Waterfall Graph の複雑化はある 第一部:ここまでのまとめ ◆ 2024/03/25 OpenTelemetry Casual Talk ◆
  18. アプリの計装と Envoy の分散トレースを結合 • Envoy における性能影響を調査することができる • トレースデータの増加や、それに伴う Waterfall Graph

    の視認性は複雑になるかも アプリを計装して分散トレース • アプリの性能解析をより詳細に(関数や処理の粒 度で)見ることができ得る • Envoy との通信は隠れてしまう 第一部:サービスメッシュ環境における OpenTelemetry ◆ 2024/03/25 OpenTelemetry Casual Talk ◆ Envoy の分散トレースを有効化 • アプリ側の計装コストを下げて、 サービス単位での分散トレースを行うことができる • スパンはサービス単位(Envoy 間)になる Envoy App Envoy App Envoy App Envoy App Envoy App Envoy App トレース コンテキスト スパン
  19. ◆ 補足:サービスメッシュ(Envoy)のトレースについて • サービスメッシュ自体の遅延や問題を分散トレースできるので、トラブルシューティングに役立つ • 一方で、以下のような課題もある ◦ サービスメッシュのスパンによりデータ量が増加 ◦ アプリケーションで生成するスパンほど、情報量を付与することができない

    Yuri Shkuro 氏 による、サービスメッシュにおける分散トレースに関連する記事があります。 サービスメッシュを分散トレースに含めるメリデメの議論がありわかりやすいので紹介します。 Myth: service mesh can do distributed tracing of your application https://medium.com/@YuriShkuro/myth-service-mesh-can-do-distributed-tracing-of-your-application-7a5cb5e3b617 第一部:サービスメッシュ環境における OpenTelemetry ◆ 2024/03/25 OpenTelemetry Casual Talk ◆