$30 off During Our Annual Pro Sale. View Details »

1兆メッセージ規模のKafkaプラットフォームを支えるオブザーバビリティ

 1兆メッセージ規模のKafkaプラットフォームを支えるオブザーバビリティ

2025年12月1日に開催された「LINEヤフー Developer Meetup #1 in Tokyo 紀尾井町LT忘年会2025」での発表資料です。

More Decks by LINEヤフーTech (LY Corporation Tech)

Other Decks in Technology

Transcript

  1. © LY Corporation 2 自己紹介 • 岡田遥来 (Haruki Okada) •

    X/GitHub: @ocadaruma • テックリード @ LINEヤフー IMFチーム • 全社向けマネージドApache Kafkaプラットフォーム の提供 • 興味 • 分散システム/パフォーマンス分析/形式手法,...
  2. © LY Corporation 3 Apache Kafkaとは • オープンソースのメッセージングミドルウェア • LINEヤフーでは、

    IMFチームによる大規模マネージド Kafkaクラスターを多くのサービスが多様なユースケースで利用
  3. © LY Corporation 4 Kafkaスケール @ LINEヤフー - ピーク送信数 :

    3100万メッセージ/秒 - 日次送信数 : 1兆メッセージ/日 - 日次送受信データ量: 2.6ペタバイト/日
  4. © LY Corporation 5 “At Scale, Rare Events aren't Rare”

    • 1千万回に一度の事象が毎秒起こる • 世界でまだ誰も踏んでない問題が顕在化する
  5. © LY Corporation 6 これまで報告してきた問題(一部) • KAFKA-13403: • データ削除時のレースコンディションでKafkaがクラッシュ •

    KAFKA-19407: • データ追記時のレースコンディションでレプリケーションが停止、 データ送信不可に • KIP-764: • SYN Cookiesに関するLinux kernelのバグでパフォーマンス悪化
  6. © LY Corporation 9 IMF Kafkaのオブザーバビリティスタック (抜粋) 外形監視 継続的プロファイリング (JVM)

    Kernelメトリクス (CPUスケジューリング) JMXベース スレッドダンプ Kernelメトリクス (I/Oレイテンシー) Kafka APIリクエストログ eBPFベース スレッドダンプ S.M.A.R.T.メトリクス RAIDステータスメトリクス
  7. © LY Corporation 10 活用事例 (KAFKA-15046) • データ送信リクエスト遅延 (アラート) •

    原因: I/Oスレッド使用率上昇 • 確認: Kafka JMXメトリクス • 原因: ProducerStateスナップショット書き込み遅延 • 確認: Kafkaアプリケーションログ • 原因: スナップショット処理とデータ書き込みのロック競合 • 確認: JVMスレッドダンプ • 原因: fsync(2)システムコール遅延 • 確認: async-profilerプロファイル • 原因: ディスクI/O負荷上昇 • 確認: node-exporter メトリクス • => 対策: ロックのスコープ変更による競合緩和
  8. © LY Corporation 12 まとめ • LINEヤフーの規模では、複雑なエッジケースの問題が顕在化 • 立ち向かうにはオブザーバビリティが重要 •

    メトリクス/ログ/プロファイル/… • アプリケーションレイヤーからカーネルレイヤーまで