$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
1兆メッセージ規模のKafkaプラットフォームを支えるオブザーバビリティ
Search
LINEヤフーTech (LY Corporation Tech)
PRO
December 09, 2025
Technology
0
6
1兆メッセージ規模のKafkaプラットフォームを支えるオブザーバビリティ
2025年12月1日に開催された「LINEヤフー Developer Meetup #1 in Tokyo 紀尾井町LT忘年会2025」での発表資料です。
LINEヤフーTech (LY Corporation Tech)
PRO
December 09, 2025
Tweet
Share
More Decks by LINEヤフーTech (LY Corporation Tech)
See All by LINEヤフーTech (LY Corporation Tech)
爆速BE開発!Kotlin × Spring Boot × GraphQLで世界が変わった
lycorptech_jp
PRO
0
5
1年でこうなる!?LINEヤフーのAI活用、激変してて笑った
lycorptech_jp
PRO
0
8
対決!Android vs iOS 生成AIオンデバイス・ラップバトル
lycorptech_jp
PRO
0
6
LINE公式アカウントのチャットを支える仕組み
lycorptech_jp
PRO
0
8
ガイドラインを軸にしたウェブアクセシビリティ改善
lycorptech_jp
PRO
1
85
ML PM Talk #1 - ML PMの分類に関する考察
lycorptech_jp
PRO
1
640
Yahoo! JAPANトップページ〜アクセシビリティのせかいをつなぐ〜
lycorptech_jp
PRO
0
45
AI活用によるPRレビュー改善の歩み ― 社内全体に広がる学びと実践
lycorptech_jp
PRO
1
140
JSConf JP 2025 LINEヤフーのセッション紹介&アンケート 結果発表
lycorptech_jp
PRO
0
240
Other Decks in Technology
See All in Technology
生成AI時代の自動E2Eテスト運用とPlaywright実践知_引持力哉
legalontechnologies
PRO
0
180
Symfony AI in Action
el_stoffel
2
380
21st ACRi Webinar - AMD Presentation Slide (Nao Sumikawa)
nao_sumikawa
0
230
あなたの知らないDateのひみつ / The Secret of "Date" You Haven't known #tqrk16
expajp
0
120
AI時代におけるアジャイル開発について
polyscape_inc
0
120
Product Engineer
resilire
0
150
freeeにおけるファンクションを超えた一気通貫でのAI活用
jaxx2104
3
1.4k
Claude Code はじめてガイド -1時間で学べるAI駆動開発の基本と実践-
oikon48
45
27k
Agents IA : la nouvelle frontière des LLMs (Tech.Rocks Summit 2025)
glaforge
0
460
意外とあった SQL Server 関連アップデート + Database Savings Plans
stknohg
PRO
0
210
Bakuraku Engineering Team Deck
layerx
PRO
12
6.5k
知っていると得する!Movable Type 9 の新機能を徹底解説
masakah
0
230
Featured
See All Featured
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.5k
Speed Design
sergeychernyshev
33
1.4k
We Have a Design System, Now What?
morganepeng
54
7.9k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.3k
Large-scale JavaScript Application Architecture
addyosmani
514
110k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.6k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.3k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
1k
Building Adaptive Systems
keathley
44
2.9k
Transcript
© LY Corporation Haruki Okada 1兆メッセージ規模の Kafkaプラットフォームを 支えるオブザーバビリティ LY Corporation
IMF Part
© LY Corporation 2 自己紹介 • 岡田遥来 (Haruki Okada) •
X/GitHub: @ocadaruma • テックリード @ LINEヤフー IMFチーム • 全社向けマネージドApache Kafkaプラットフォーム の提供 • 興味 • 分散システム/パフォーマンス分析/形式手法,...
© LY Corporation 3 Apache Kafkaとは • オープンソースのメッセージングミドルウェア • LINEヤフーでは、
IMFチームによる大規模マネージド Kafkaクラスターを多くのサービスが多様なユースケースで利用
© LY Corporation 4 Kafkaスケール @ LINEヤフー - ピーク送信数 :
3100万メッセージ/秒 - 日次送信数 : 1兆メッセージ/日 - 日次送受信データ量: 2.6ペタバイト/日
© LY Corporation 5 “At Scale, Rare Events aren't Rare”
• 1千万回に一度の事象が毎秒起こる • 世界でまだ誰も踏んでない問題が顕在化する
© LY Corporation 6 これまで報告してきた問題(一部) • KAFKA-13403: • データ削除時のレースコンディションでKafkaがクラッシュ •
KAFKA-19407: • データ追記時のレースコンディションでレプリケーションが停止、 データ送信不可に • KIP-764: • SYN Cookiesに関するLinux kernelのバグでパフォーマンス悪化
© LY Corporation 7 どうやって原因を突き止める? • => オブザーバビリティで立ち向かう!
© LY Corporation 8 IMF Kafkaのオブザーバビリティスタック (抜粋)
© LY Corporation 9 IMF Kafkaのオブザーバビリティスタック (抜粋) 外形監視 継続的プロファイリング (JVM)
Kernelメトリクス (CPUスケジューリング) JMXベース スレッドダンプ Kernelメトリクス (I/Oレイテンシー) Kafka APIリクエストログ eBPFベース スレッドダンプ S.M.A.R.T.メトリクス RAIDステータスメトリクス
© LY Corporation 10 活用事例 (KAFKA-15046) • データ送信リクエスト遅延 (アラート) •
原因: I/Oスレッド使用率上昇 • 確認: Kafka JMXメトリクス • 原因: ProducerStateスナップショット書き込み遅延 • 確認: Kafkaアプリケーションログ • 原因: スナップショット処理とデータ書き込みのロック競合 • 確認: JVMスレッドダンプ • 原因: fsync(2)システムコール遅延 • 確認: async-profilerプロファイル • 原因: ディスクI/O負荷上昇 • 確認: node-exporter メトリクス • => 対策: ロックのスコープ変更による競合緩和
© LY Corporation 11 Kafka本体へ報告・貢献 • https://github.com/apache/kafka/pull/14242
© LY Corporation 12 まとめ • LINEヤフーの規模では、複雑なエッジケースの問題が顕在化 • 立ち向かうにはオブザーバビリティが重要 •
メトリクス/ログ/プロファイル/… • アプリケーションレイヤーからカーネルレイヤーまで