Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Google Kubernetes Engine (GKE) の可観測性を活用し、 システムの...
Search
GoogleCloudPlatformJapan
December 21, 2025
Business
100
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Google Kubernetes Engine (GKE) の可観測性を活用し、 システムの Resiliency を高める障害原因調査
GoogleCloudPlatformJapan
December 21, 2025
More Decks by GoogleCloudPlatformJapan
See All by GoogleCloudPlatformJapan
Jagu'e'r O11y分科会 0630 - kubectl logsのその先へ、実は使えるいろんなKubernetesログを追ってみよう
googlecloudjapan
0
43
「原因不明なナゾの障害」で終わらないための Kubernetes のログの徹底活用
googlecloudjapan
0
450
15 分で学ぶ Cloud Run のユースケースと代表的なアーキテクチャパターン
googlecloudjapan
3
810
Google Cloud の スペシャリストと学ぶ! BigQuery & Gemini
googlecloudjapan
0
270
ログから学ぶKubernetes
googlecloudjapan
1
740
GKE Enterprise 徹底解説
googlecloudjapan
2
1.4k
Cloud Run で作るサーバーレス アーキテクチャ 30 連発 - これのときはこう!
googlecloudjapan
33
12k
実践!サーバーレス RAG 構築:Firestore ベクトル検索と VertexAI LLM 活用
googlecloudjapan
2
3k
実践!サーバーレス RAG 構築:Firestore ベクトル検索と VertexAI LLM 活用
googlecloudjapan
0
450
Other Decks in Business
See All in Business
サムコ株式会社 第47期第3四半期決算概要
tsuchihashi
0
460
AWTTの歩き方〜Tableau編〜
leafyoh
0
260
【結果報告】Claude×Linearで会社のタスク管理をAIにまかせて1ヶ月。業務効率150%向上したが、AIネイティブカンパニーを目指すならもっと「加速への狂気」が必要
nagatsu
1
530
2026_中途_理学療法士採用ピッチ資料
nozomiseikeigeka
0
120
CSRレポート2026_ギークス株式会社
geechs
PRO
0
460
Mercari-Fact-book_jp
mercari_inc
7
190k
CC採用候補者向けピッチ資料
crosscommunication
2
59k
DMM.com コーポレートブック
dmm
2
500k
コーポレートストーリー(新規投資家様向け会社説明資料)
gatechnologies
2
19k
株式会社ショーエイ_採用説明資料
shoeidex
0
170
会社紹介資料
sbs5780
0
1k
SimpleForm 会社紹介資料
simpleform
2
55k
Featured
See All Featured
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.2k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
170
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
240
Design in an AI World
tapps
1
250
HDC tutorial
michielstock
2
720
Designing for humans not robots
tammielis
254
26k
Ethics towards AI in product and experience design
skipperchong
2
310
What's in a price? How to price your products and services
michaelherold
247
13k
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.5k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
28
3.5k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4.2k
Transcript
Google Kubernetes Engine (GKE) の可観測性を活用し、 システムの回復性を高める障害原因調査
02 石井 翔 Google Cloud Technical Solutions Engineer @kyasbal_k @kyasbal
03 石井 翔 Google Cloud Technical Solutions Engineer Google Cloud
のテクニカル サポートの エンジニア = @kyasbal_k @kyasbal
04 Kubernetes は運用をどう変えたか
05 Kubernetes は運用をどう変えたか
06 Kubernetes は運用をどう変えたか 数多くの運用のオペレーションが自動化されるようになった
07 Kubernetes は運用をどう変えたか 数多くの運用のオペレーションが自動化されるようになった 数多くの運用のオペレーションが人の手元から離れて実行されるようになった
08 運用の変化により障害の形も変化した
09 運用の変化により障害の形も変化した
010 運用の変化により障害の形も変化した ダイナミックで自動化された運用パターンが容易に実現できるようになった 一方、 リアルな運用で発生する障害発生時に求められる対応はとても難しくなった
011 障害の形が変化し、可観測性に求められるレベルは高い
012 障害の形が変化し、可観測性に求められるレベルは高い
013 障害の形が変化し、可観測性に求められるレベルは高い 例: GKE のデフォルトのメトリクスダッシュボード (様々なクラスタ上のイベントと関連づけてくれる )
014 障害の形が変化し、可観測性に求められるレベルは高い 例: GKE のデフォルトのメトリクスダッシュボード (様々なクラスタ上のイベントと関連づけてくれる ) しかし、Kubernetes のクラスタに「可観測性」 がある。
もう今の時代ではもちろん当然 ですよね。
015 障害の形が変化し、可観測性に求められるレベルは高い 例: GKE のデフォルトのメトリクスダッシュボード (様々なクラスタ上のイベントと関連づけてくれる ) しかし、Kubernetes のクラスタに「可観測性」 がある。
もう今の時代ではもちろん当然 ですよね。 →その「可観測性」 を活用して様々なダウンタイムを分析し、根本 原因を見つけ、クラスタの Resiliency を高めていくイテレーションを 回せていますか?
016 特に障害原因の断定に必要な「ログ」を活用できてますか
017 特に障害原因の断定に必要な「ログ」を活用できてますか
018 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア ログだけからリソースの状態をタイムラインにして可視化、特定のタ イミングでのリソースの変化を差分表示
019 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア ログだけからリソースの状態をタイムラインにして可視化、特定のタ イミングでのリソースの変化を差分表示 ログだけからあるタイミングのリソースの分布を可視化
020 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア docker run -p 127.0.0.1:8080:8080 gcr.io/kubernetes-history-inspector/release:latest KHI はコマンド 1 つで起動 : (Cloud Shellの場合) (あくまでログビューアなのでクラスタにエージェント等は一切導入不要 )
021 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア 起動したらログ収集 に必要な情報を入 れるだけ GKE 等は クラスタ名等を 入れると自動でログフィルタが生 成され自動で収集 その他のクラスタではログファイル を KHI にペースト
022 監査ログ ファイル Cloud Logging 自動でクエリ ファイルを アップロード Kubernetes の障害調査に
適した形で可視化 ローカル環境 / Cloud Shell 等 Kubernetes の障害調査のための OSS ログビューア Kubernetes History Inspector (KHI) GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! Google Cloud の提供する Kubernetes 環境 (GKE / GDC 等) その他の Kubernetes 環境 Kubernetes History Inspector (KHI) は Google Cloud の技術サポートチームが Kubernetes 上の多様な障害原因の調査を行う中で、 ログの情報を最大限活用し迅速に 障害の全容を把握しその原因を見つけるために開発し OSS として公開したログビューア しばらく待つとログビューア画面ができてログをわかりやすく分析できる
023 障害調査のデモ シナリオ: critical-service という名前の Service にノードプールのアップグレード中にアク セスできなくなった。ノードプールのアップデート中は確かに Node は順次ドレイン
されていくが、PodDisruptionBudget(PDB) にはminAvailable:1 が指定されて いる。何故だろうか?
024 まとめ GoogleCloudPlatform/khi https://github.com/GoogleCloudPlatform/khi Star us on GitHub! ← 昨日新しいバージョン
(0.50.0) をリリースしました 🎉