Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
1兆メッセージ規模のKafkaプラットフォームを支えるオブザーバビリティ
Search
LINEヤフーTech (LY Corporation Tech)
PRO
December 09, 2025
Technology
0
87
1兆メッセージ規模のKafkaプラットフォームを支えるオブザーバビリティ
2025年12月1日に開催された「LINEヤフー Developer Meetup #1 in Tokyo 紀尾井町LT忘年会2025」での発表資料です。
LINEヤフーTech (LY Corporation Tech)
PRO
December 09, 2025
Tweet
Share
More Decks by LINEヤフーTech (LY Corporation Tech)
See All by LINEヤフーTech (LY Corporation Tech)
Yahoo!ショッピングのレコメンデーション・システムにおけるML実践の一例
lycorptech_jp
PRO
1
120
Rollback from KRaft mode to ZooKeeper mode
lycorptech_jp
PRO
1
60
When an innocent-looking ListOffsets Call Took Down Our Kafka Cluster
lycorptech_jp
PRO
0
92
類似画像検索モデルの開発ノウハウ
lycorptech_jp
PRO
4
1k
メタデータ同期に潜んでいた問題 〜 Cache Stampede 時の Cycle Wait を⾒つけた話
lycorptech_jp
PRO
0
150
LINE Messengerの次世代ストレージ選定
lycorptech_jp
PRO
19
7.5k
生成AI活用によるPRレビュー改善の歩み
lycorptech_jp
PRO
5
2.1k
Agentic Codingの実践とチームで導入するための工夫
lycorptech_jp
PRO
0
440
大規模な組織におけるAI Agent活用の促進と課題
lycorptech_jp
PRO
6
8k
Other Decks in Technology
See All in Technology
越境する組織づくり ─ 多様性を前提にしたチームビルディングとリードの実践知
kido_engineer
2
130
Ultra Ethernet (UEC) v1.0 仕様概説
markunet
3
220
モブプログラミング再入門 ー 基本から見直す、AI時代のチーム開発の選択肢 ー / A Re-introduction of Mob Programming
takaking22
4
590
Kaggleの経験が実務にどう活きているか / kaggle_findy
sansan_randd
6
1.1k
AIエージェント・エコノミーの幕開け 〜 オープンプロトコルが変えるビジネスの未来 〜
shukob
0
110
聲の形にみるアクセシビリティ
tomokusaba
0
140
20260305_【白金鉱業】分析者が地理情報を武器にするための軽量なアドホック分析環境
yucho147
1
200
AWS SES VDMで 将来の配信事故を防げた話
moyashi
0
160
Security Diaries of an Open Source IAM
ahus1
0
210
DX Improvement at Scale
ntk1000
3
350
Kiro のクレジットを使い切る!
otanikohei2023
0
120
Claude Codeが爆速進化してプラグイン追従がつらいので半自動化した話 ver.2
rfdnxbro
0
420
Featured
See All Featured
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
210
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.4k
A Tale of Four Properties
chriscoyier
163
24k
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.2k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
190
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
760
Designing Powerful Visuals for Engaging Learning
tmiket
0
260
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
360
Deep Space Network (abreviated)
tonyrice
0
86
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
Design in an AI World
tapps
0
160
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Transcript
© LY Corporation Haruki Okada 1兆メッセージ規模の Kafkaプラットフォームを 支えるオブザーバビリティ LY Corporation
IMF Part
© LY Corporation 2 自己紹介 • 岡田遥来 (Haruki Okada) •
X/GitHub: @ocadaruma • テックリード @ LINEヤフー IMFチーム • 全社向けマネージドApache Kafkaプラットフォーム の提供 • 興味 • 分散システム/パフォーマンス分析/形式手法,...
© LY Corporation 3 Apache Kafkaとは • オープンソースのメッセージングミドルウェア • LINEヤフーでは、
IMFチームによる大規模マネージド Kafkaクラスターを多くのサービスが多様なユースケースで利用
© LY Corporation 4 Kafkaスケール @ LINEヤフー - ピーク送信数 :
3100万メッセージ/秒 - 日次送信数 : 1兆メッセージ/日 - 日次送受信データ量: 2.6ペタバイト/日
© LY Corporation 5 “At Scale, Rare Events aren't Rare”
• 1千万回に一度の事象が毎秒起こる • 世界でまだ誰も踏んでない問題が顕在化する
© LY Corporation 6 これまで報告してきた問題(一部) • KAFKA-13403: • データ削除時のレースコンディションでKafkaがクラッシュ •
KAFKA-19407: • データ追記時のレースコンディションでレプリケーションが停止、 データ送信不可に • KIP-764: • SYN Cookiesに関するLinux kernelのバグでパフォーマンス悪化
© LY Corporation 7 どうやって原因を突き止める? • => オブザーバビリティで立ち向かう!
© LY Corporation 8 IMF Kafkaのオブザーバビリティスタック (抜粋)
© LY Corporation 9 IMF Kafkaのオブザーバビリティスタック (抜粋) 外形監視 継続的プロファイリング (JVM)
Kernelメトリクス (CPUスケジューリング) JMXベース スレッドダンプ Kernelメトリクス (I/Oレイテンシー) Kafka APIリクエストログ eBPFベース スレッドダンプ S.M.A.R.T.メトリクス RAIDステータスメトリクス
© LY Corporation 10 活用事例 (KAFKA-15046) • データ送信リクエスト遅延 (アラート) •
原因: I/Oスレッド使用率上昇 • 確認: Kafka JMXメトリクス • 原因: ProducerStateスナップショット書き込み遅延 • 確認: Kafkaアプリケーションログ • 原因: スナップショット処理とデータ書き込みのロック競合 • 確認: JVMスレッドダンプ • 原因: fsync(2)システムコール遅延 • 確認: async-profilerプロファイル • 原因: ディスクI/O負荷上昇 • 確認: node-exporter メトリクス • => 対策: ロックのスコープ変更による競合緩和
© LY Corporation 11 Kafka本体へ報告・貢献 • https://github.com/apache/kafka/pull/14242
© LY Corporation 12 まとめ • LINEヤフーの規模では、複雑なエッジケースの問題が顕在化 • 立ち向かうにはオブザーバビリティが重要 •
メトリクス/ログ/プロファイル/… • アプリケーションレイヤーからカーネルレイヤーまで