Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Google Kubernetes Engine (GKE) の可観測性を活用し、 システムの...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
GoogleCloudPlatformJapan
December 21, 2025
Business
100
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Google Kubernetes Engine (GKE) の可観測性を活用し、 システムの Resiliency を高める障害原因調査
GoogleCloudPlatformJapan
December 21, 2025
More Decks by GoogleCloudPlatformJapan
See All by GoogleCloudPlatformJapan
Jagu'e'r O11y分科会 0630 - kubectl logsのその先へ、実は使えるいろんなKubernetesログを追ってみよう
googlecloudjapan
0
43
「原因不明なナゾの障害」で終わらないための Kubernetes のログの徹底活用
googlecloudjapan
0
450
15 分で学ぶ Cloud Run のユースケースと代表的なアーキテクチャパターン
googlecloudjapan
3
810
Google Cloud の スペシャリストと学ぶ! BigQuery & Gemini
googlecloudjapan
0
270
ログから学ぶKubernetes
googlecloudjapan
1
740
GKE Enterprise 徹底解説
googlecloudjapan
2
1.4k
Cloud Run で作るサーバーレス アーキテクチャ 30 連発 - これのときはこう!
googlecloudjapan
33
12k
実践!サーバーレス RAG 構築:Firestore ベクトル検索と VertexAI LLM 活用
googlecloudjapan
2
3k
実践!サーバーレス RAG 構築:Firestore ベクトル検索と VertexAI LLM 活用
googlecloudjapan
0
450
Other Decks in Business
See All in Business
会社紹介資料
sbs5780
0
1.1k
開発時間2時間!gemma 4で動くローカルAIマルチエージェント構築(Python標準ライブラリ縛り)
hideyuki_ogawa
0
310
会社説明資料
kurashima
0
1.5k
ラッコ株式会社 Linear本導入説明会
mayahoney
0
560
株式会社ショーエイ_採用説明資料
shoeidex
0
170
スマートキャンプ株式会社 会社紹介資料 / companydeck
smartcamp
1
4.4k
株式会社ルクレ新卒向け採用ピッチ
lecre
0
350
AIで経理の仕事はどう変わるのか
shunsuke_takeuchi
PRO
0
430
Copilotで資料を作るようになって仕事のやり方が変わった話
aonomasahiro
2
570
【サービス資料】toiro BPO.pdf
shiftgroup
PRO
0
400
アッテル会社紹介資料/culture deck
attelu
11
17k
AIを意識した経営・執行の設計と実行
kan
4
4.3k
Featured
See All Featured
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
420
Measuring & Analyzing Core Web Vitals
bluesmoon
9
870
Making Projects Easy
brettharned
120
6.7k
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.3k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
250
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.3k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
Building Applications with DynamoDB
mza
96
7.1k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.5k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
62
44k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
It's Worth the Effort
3n
188
29k
Transcript
Google Kubernetes Engine (GKE) の可観測性を活用し、 システムの回復性を高める障害原因調査
02 石井 翔 Google Cloud Technical Solutions Engineer @kyasbal_k @kyasbal
03 石井 翔 Google Cloud Technical Solutions Engineer Google Cloud
のテクニカル サポートの エンジニア = @kyasbal_k @kyasbal
04 Kubernetes は運用をどう変えたか
05 Kubernetes は運用をどう変えたか
06 Kubernetes は運用をどう変えたか 数多くの運用のオペレーションが自動化されるようになった
07 Kubernetes は運用をどう変えたか 数多くの運用のオペレーションが自動化されるようになった 数多くの運用のオペレーションが人の手元から離れて実行されるようになった
08 運用の変化により障害の形も変化した
09 運用の変化により障害の形も変化した
010 運用の変化により障害の形も変化した ダイナミックで自動化された運用パターンが容易に実現できるようになった 一方、 リアルな運用で発生する障害発生時に求められる対応はとても難しくなった
011 障害の形が変化し、可観測性に求められるレベルは高い
012 障害の形が変化し、可観測性に求められるレベルは高い
013 障害の形が変化し、可観測性に求められるレベルは高い 例: GKE のデフォルトのメトリクスダッシュボード (様々なクラスタ上のイベントと関連づけてくれる )
014 障害の形が変化し、可観測性に求められるレベルは高い 例: GKE のデフォルトのメトリクスダッシュボード (様々なクラスタ上のイベントと関連づけてくれる ) しかし、Kubernetes のクラスタに「可観測性」 がある。
もう今の時代ではもちろん当然 ですよね。
015 障害の形が変化し、可観測性に求められるレベルは高い 例: GKE のデフォルトのメトリクスダッシュボード (様々なクラスタ上のイベントと関連づけてくれる ) しかし、Kubernetes のクラスタに「可観測性」 がある。
もう今の時代ではもちろん当然 ですよね。 →その「可観測性」 を活用して様々なダウンタイムを分析し、根本 原因を見つけ、クラスタの Resiliency を高めていくイテレーションを 回せていますか?
016 特に障害原因の断定に必要な「ログ」を活用できてますか
017 特に障害原因の断定に必要な「ログ」を活用できてますか
018 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア ログだけからリソースの状態をタイムラインにして可視化、特定のタ イミングでのリソースの変化を差分表示
019 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア ログだけからリソースの状態をタイムラインにして可視化、特定のタ イミングでのリソースの変化を差分表示 ログだけからあるタイミングのリソースの分布を可視化
020 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア docker run -p 127.0.0.1:8080:8080 gcr.io/kubernetes-history-inspector/release:latest KHI はコマンド 1 つで起動 : (Cloud Shellの場合) (あくまでログビューアなのでクラスタにエージェント等は一切導入不要 )
021 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア 起動したらログ収集 に必要な情報を入 れるだけ GKE 等は クラスタ名等を 入れると自動でログフィルタが生 成され自動で収集 その他のクラスタではログファイル を KHI にペースト
022 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア しばらく待つとログビューア画面ができてログをわかりやすく分析できる
023 障害調査のデモ シナリオ: critical-service という名前の Service にノードプールのアップグレード中にアク セスできなくなった。ノードプールのアップデート中は確かに Node は順次ドレイン
されていくが、PodDisruptionBudget(PDB) にはminAvailable:1 が指定されて いる。何故だろうか?
024 まとめ GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! ← 昨日新しいバージョン
(0.50.0) をリリースしました 🎉