Upgrade to Pro — share decks privately, control downloads, hide ads and more …

なにもしてないのにNew Relicのデータ転送量が増えていたときに確認したこと

なにもしてないのにNew Relicのデータ転送量が増えていたときに確認したこと

New Relic User Group Vol.11 ただのLT大会 - connpass
https://nrug.connpass.com/event/327828/

Hiroki Takatsuka

September 10, 2024
Tweet

More Decks by Hiroki Takatsuka

Other Decks in Technology

Transcript

  1. 目次 © primeNumber Inc. 2 • 自己紹介とTROCCO®の紹介 • 今日話すことサマリ •

    見るべきポイント、検討すべきポイント • どんな発生ケースがあったか • まとめ
  2. 目次 © primeNumber Inc. 3 • 自己紹介とTROCCO®の紹介 • 今日話すことサマリ •

    見るべきポイント、検討すべきポイント • どんな発生ケースがあったか • まとめ
  3. © primeNumber Inc. 4 髙塚広貴 (@tk3fftk) 株式会社primeNumber Head of SRE

    • ヤフー株式会社 (2016 ~ 2022) ◦ CI/CDプラットフォーム Screwdriver.cd のSREチームのスクラムマスターやEM • 株式会社primeNumber (2022 ~ ) ◦ TROCCO®のSRE ◦ New Relic歴は2年くらい • 猫 ◦ アルくん (アビシニアン ♂ 4歳)
  4. 目次 © primeNumber Inc. 10 • 自己紹介とTROCCO®の紹介 • 今日話すことサマリ •

    見るべきポイント、検討すべきポイント • どんな発生ケースがあったか • まとめ
  5. © primeNumber Inc. 11 今日話すこと 「なにもしてないのにNew Relicのデータ転送量が増えていたときに確認したこと」 • 基本的には Understand

    and manage data ingest に書いてあること ◦ 雑にまとめると「いらんデータを特定して消せ!」という話が書いてある • どこを見て、どう特定し、何を減らせばいいか • 実際に起こった事象に対して何をやったか • “なにもしてないのに” == “心当たりがないのに” くらいで捉えてもらえると🙏
  6. 目次 © primeNumber Inc. 12 • 自己紹介とTROCCO®の紹介 • 今日話すことサマリ •

    見るべきポイント、検討すべきポイント • どんな発生ケースがあったか • まとめ
  7. © primeNumber Inc. 17 何が、いつから、が分かればリリース/更新内容を確認する 1. New Relic Agentまわりの設定が変わってないか? 2.

    アプリケーション、インフラともにagent versionを上げたタイミングではないか? 3. アプリケーションに何か大きめのアップデートはないか? 4. 他に何かデータ送信側に怪しげな兆候はないか? 5. 全部当てはまらないとき まずはここから
  8. © primeNumber Inc. 18 1. New Relic Agentまわりの設定が変わってないか? • 設定変更した結果、思ったよりデータ転送量増えちゃってる

    • 設定を元に戻したり、転送intervalを調整するなど 何もしてなくないパターン() なので、設定変更が原因の可能性大
  9. © primeNumber Inc. 19 2. Agent versionを上げたタイミングではないか? • 有効化フラグのデフォルト値が変わっている •

    新しいメトリクスを送るようになっている など… • 公式ドキュメントのリリースノートが充実しているので見てアタリをつけましょう ◦ Release notes | New Relic Documentation • Major versionを上げている場合はmigration guideも ◦ 例: Ruby agent 8.x to 9.x migration guide | New Relic Documentation ▪ 上げる前に読んでるだろうけど、見落としとか… アップグレードの際に意図しない設定が入ってる可能性を疑う👀
  10. © primeNumber Inc. 22 5. 全部当てはまらないとき • おめでとうございます 🎉 •

    それでもデータ転送減らしたいのであれば、ひたすらケチってみる ◦ リアルタイム性や細かいメトリクスがいらないのであればintervalを下げる ▪ 単純に量が多いならここが効く • interval倍にしたら単純計算で半分になる ◦ 普段見てない「とりあえず」で送っているメトリクスの棚卸し ◦ Drop dataしてみる (やったことはないですが…) ▪ Drop data using NerdGraph | New Relic Documentation • > Dropped data does not count towards your data ingest and so is not billable. プロダクトが順調に伸びているか、New Relicの活用が進んでいます (たぶん)
  11. 目次 © primeNumber Inc. 23 • 自己紹介とTROCCO®の紹介 • 今日話すことサマリ •

    見るべきポイント、検討すべきポイント • どんな発生ケースがあったか • まとめ
  12. © primeNumber Inc. 25 ① k8sのCompletedなJobが残り続けていた • “Infrastructure integrations” が倍増

    ◦ ≒ TROCCOのジョブ実行基盤のk8sのメトリクスが増え続けていた ▪ CompletedなJobが残り続けていたため • 3つのうち最も特定難しかったケース • 詳しくは👇 緊急SOS!KubernetesのCompletedな10万Jobぜんぶ消す
  13. © primeNumber Inc. 26 ② “Infrastructure processes” が有効になっていた • k8s

    agent管理を古来より受け継いだYAMLからHelmに移行した際に発生 • defaultがtrueになった値(enableProcessMetrics)の見逃し ◦ Infrastructure agent configuration settings | New Relic Documentation ▪ > Requires infrastructure agent version 1.12.0 or higher. Accounts created before July 20, 2020 and/or infrastructure agents installed using the new Guided Install have this variable enabled by default.
  14. © primeNumber Inc. 27 ③ 設定の移行漏れ • わかりにくいが②と同タイミングに発生していた (薄紫が②のやつ) ◦

    ②を潰して安心していたが、実は“Infrastructure integrations”が倍くらい • infra agentのintervalの設定の移行漏れ ◦ 細かくチューニングするのではなく lowDataMode を有効にした ▪ nri-kubernetes/charts/newrelic-infrastructure/README.md • > The lowDataMode toggle is the simplest way to reduce data send to Newrelic.
  15. 目次 © primeNumber Inc. 28 • 自己紹介とTROCCO®の紹介 • 今日話すことサマリ •

    見るべきポイント、検討すべきポイント • どんな発生ケースがあったか • まとめ
  16. © primeNumber Inc. 29 まとめ なにもしてないのに(心当たりがないのに)データ転送量が増えたときは… • 「どのデータソース」が「いつから」増えているか確認する • その周辺の自分たちのリリース/更新内容を確認する

    ◦ New Relic Agentまわりの設定が変わってないか? ◦ アプリケーション、インフラともにagent versionを上げたタイミングではないか? ◦ アプリケーションに何か大きめのアップデートはないか? ◦ 他に何かデータ送信側に怪しげな兆候はないか? • 当てはまらなかったプロダクトが順調に伸びているか、New Relicの活用が進んでい ます (たぶん) ◦ それでもデータ転送減らしたいのであれば、ひたすらケチってみる