Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
1兆メッセージ規模のKafkaプラットフォームを支えるオブザーバビリティ
Search
LINEヤフーTech (LY Corporation Tech)
PRO
December 09, 2025
Technology
0
57
1兆メッセージ規模のKafkaプラットフォームを支えるオブザーバビリティ
2025年12月1日に開催された「LINEヤフー Developer Meetup #1 in Tokyo 紀尾井町LT忘年会2025」での発表資料です。
LINEヤフーTech (LY Corporation Tech)
PRO
December 09, 2025
Tweet
Share
More Decks by LINEヤフーTech (LY Corporation Tech)
See All by LINEヤフーTech (LY Corporation Tech)
Java Virtual Threads, Kotlin Coroutines, Go Goroutinesの比較
lycorptech_jp
PRO
1
75
マイクロサービスアーキテクチャのトレードオフとコンポーネント増加について〜Yahoo!ニュース〜
lycorptech_jp
PRO
0
28
AIプラットフォームにおけるMLflowの利用について
lycorptech_jp
PRO
2
250
MLflowダイエット大作戦
lycorptech_jp
PRO
1
220
4%ルールとN1思考──不確実性に対抗するディスカバリー検証
lycorptech_jp
PRO
1
170
初めてのOSS貢献の雑ガイド
lycorptech_jp
PRO
1
48
LINEスタンプ開発の日常
lycorptech_jp
PRO
1
680
LINEスタンプサーバーサイド
lycorptech_jp
PRO
0
680
Yahoo!ファイナンスにおける生成AIを活用した新機能紹介
lycorptech_jp
PRO
0
740
Other Decks in Technology
See All in Technology
Models vs Bounded Contexts for Domain Modularizati...
ewolff
0
220
サラリーマンソフトウェアエンジニアのキャリア
yuheinakasaka
42
20k
ファインディにおけるフロントエンド技術選定の歴史
puku0x
2
1.6k
SOC2は、取った瞬間よりその後が面白い
3flower
0
170
20260120 Amazon VPC のパブリックサブネットを無くしたい!
masaruogura
2
160
AWS監視を「もっと楽する」ために
uechishingo
0
300
AWS Network Firewall Proxyで脱Squid運用⁈
nnydtmg
1
160
EventBridge API Destination × AgentCore Runtimeで実現するLambdaレスなイベント駆動エージェント
har1101
6
240
kintone開発のプラットフォームエンジニアの紹介
cybozuinsideout
PRO
0
570
Claude in Chromeで始める自律的フロントエンド開発
diggymo
1
270
【Oracle Cloud ウェビナー】ランサムウェアが突く「侵入の隙」とバックアップの「死角」 ~ 過去の教訓に学ぶ — 侵入前提の防御とデータ保護 ~
oracle4engineer
PRO
2
200
「全社導入」は結果。1人の熱狂が組織に伝播したmikanのn8n活用
sota_mikami
0
400
Featured
See All Featured
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
3.5k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.9k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.6k
Scaling GitHub
holman
464
140k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
0
2.3k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
1
42
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1k
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
170
Between Models and Reality
mayunak
1
170
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.7k
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
1
110
A Tale of Four Properties
chriscoyier
162
24k
Transcript
© LY Corporation Haruki Okada 1兆メッセージ規模の Kafkaプラットフォームを 支えるオブザーバビリティ LY Corporation
IMF Part
© LY Corporation 2 自己紹介 • 岡田遥来 (Haruki Okada) •
X/GitHub: @ocadaruma • テックリード @ LINEヤフー IMFチーム • 全社向けマネージドApache Kafkaプラットフォーム の提供 • 興味 • 分散システム/パフォーマンス分析/形式手法,...
© LY Corporation 3 Apache Kafkaとは • オープンソースのメッセージングミドルウェア • LINEヤフーでは、
IMFチームによる大規模マネージド Kafkaクラスターを多くのサービスが多様なユースケースで利用
© LY Corporation 4 Kafkaスケール @ LINEヤフー - ピーク送信数 :
3100万メッセージ/秒 - 日次送信数 : 1兆メッセージ/日 - 日次送受信データ量: 2.6ペタバイト/日
© LY Corporation 5 “At Scale, Rare Events aren't Rare”
• 1千万回に一度の事象が毎秒起こる • 世界でまだ誰も踏んでない問題が顕在化する
© LY Corporation 6 これまで報告してきた問題(一部) • KAFKA-13403: • データ削除時のレースコンディションでKafkaがクラッシュ •
KAFKA-19407: • データ追記時のレースコンディションでレプリケーションが停止、 データ送信不可に • KIP-764: • SYN Cookiesに関するLinux kernelのバグでパフォーマンス悪化
© LY Corporation 7 どうやって原因を突き止める? • => オブザーバビリティで立ち向かう!
© LY Corporation 8 IMF Kafkaのオブザーバビリティスタック (抜粋)
© LY Corporation 9 IMF Kafkaのオブザーバビリティスタック (抜粋) 外形監視 継続的プロファイリング (JVM)
Kernelメトリクス (CPUスケジューリング) JMXベース スレッドダンプ Kernelメトリクス (I/Oレイテンシー) Kafka APIリクエストログ eBPFベース スレッドダンプ S.M.A.R.T.メトリクス RAIDステータスメトリクス
© LY Corporation 10 活用事例 (KAFKA-15046) • データ送信リクエスト遅延 (アラート) •
原因: I/Oスレッド使用率上昇 • 確認: Kafka JMXメトリクス • 原因: ProducerStateスナップショット書き込み遅延 • 確認: Kafkaアプリケーションログ • 原因: スナップショット処理とデータ書き込みのロック競合 • 確認: JVMスレッドダンプ • 原因: fsync(2)システムコール遅延 • 確認: async-profilerプロファイル • 原因: ディスクI/O負荷上昇 • 確認: node-exporter メトリクス • => 対策: ロックのスコープ変更による競合緩和
© LY Corporation 11 Kafka本体へ報告・貢献 • https://github.com/apache/kafka/pull/14242
© LY Corporation 12 まとめ • LINEヤフーの規模では、複雑なエッジケースの問題が顕在化 • 立ち向かうにはオブザーバビリティが重要 •
メトリクス/ログ/プロファイル/… • アプリケーションレイヤーからカーネルレイヤーまで