Upgrade to Pro — share decks privately, control downloads, hide ads and more …

開発生産性向上のための 監視運用改善

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for dmmsre dmmsre
July 11, 2024
260

開発生産性向上のための 監視運用改善

開発生産性Conference2024 登壇資料

Avatar for dmmsre

dmmsre

July 11, 2024
Tweet

Transcript

  1. © DMM.com 自己紹介 • 名前 : 湯浅 省吾(ゆあさ しょうご) • 所属

    : DMM.com ITインフラ本部 SRE部 • 担当業務: DMMオンラインサロンや、DMM通販などでSREとし て、サービスの信頼性向上や、AWS関連での 技術支援を行なっている
  2. © DMM.com DMM.comにおけるSRE部の業務 ミッション ❏ DMMのすべてのサービスとインフラストラクチャを ソフトウェアの力で最適化する 大きく2つのチームで活動 ❏ 事業支援チーム

    ❏ DMMの各種事業/サービスへの技術支援 ❏ DMMオンラインサロン ❏ DMMブックス ❏ DMM通販 …etc ❏ 信頼性向上チーム ❏ SLO導入推進 ❏ 自動化推進/トイル削減 …etc
  3. © DMM.com New Relic導入のキッカケとなる出来事 2020年ごろから数年かけて、レガシー脱却の取り組みを行った ❏ クラウド化、さらにはコンテナ化 ❏ いわゆる Lift

    & Shift オンラインサロン 入会/管理システム ❏ オンプレ → AWS EC2 → AWS ECS Fargate オンラインサロン コミュニティツール ❏ AWS Elastic Beanstalk → AWS ECS Fargate
  4. © DMM.com 既存の監視における課題 (1)各システムで監視ツールがバラバラ ❏ オンラインサロン入会/管理システム • Zabbix、StatusCake ❏ コミュニティツール

    • Mackerel、CloudWatch (2)インフラ/監視基盤のサイロ化 ❏ インフラ/監視基盤は別部門が管轄しており、何か設定や変更を行う場合、 作業依頼が必要となり、毎回時間がかかっていた (3)アプリケーションの状況把握に時間がかかる ❏ アプリケーションの状態が把握できるような監視ツールが入っていなかった ❏ ログを参照するにはサーバにSSHして確認する必要があった
  5. © DMM.com (1)監視ツールを New Relicに統一 各システムの監視ツールをNew Relicに統一した ❏ 監視運用の手法を統一することができ、運用が効率化 ❏

    システム横断で状態が把握できるようになり障害調査や分析が 効率的に行えるようになった ❏ 統一されたツールでの運用となったため、学習コストが下がった 運用効率化 システム横断で 状況把握 学習コストの低下
  6. © DMM.com (3)New Relic APM / Logsの活用 New Relic APM

    を利用することで、アプリケーションの細かな動きが把握で きるようになった ❏ どのような処理が呼び出されていて、どこで時間かかっているのか 可視化されることで、調査が捗った
  7. © DMM.com (3)New Relic APM / Logsの活用 New Relic Logsを利用することで、サーバにSSHログインしなくても

    ブラウザから簡単に、システム横断でログを参照できるようになった ・踏み台経由でログインしなきゃ ・本番だから立ち合い必要だ ・複数サーバからログ収集しなきゃ ・まとめて検索するの大変 などなど ・ブラウザで一括検索できてラクチン ・サーバ側でユーザー用意しなくていい
  8. © DMM.com さらに New Relic ダッシュボードも活用 導入当初は、隔週で「監視ツールを眺める会」を行った ❏ ダッシュボードを眺めて気になるところを議論 ❏

    監視ツールの使い方を覚える、監視ツールを見るクセが システム性能だけでなく、AWS料金等も可視化することで、意図しないコスト 増加にも対処できるようになった
  9. © DMM.com 想定していた効果と副次効果 想定していた効果 ❏ ツールの集約や設定のセルフコントロールなどによる運用の最適化 ❏ New Relicを使うことでより細かくシステムの状態が見られる 副次効果

    ❏ 日々の変化に気づけるようになり、障害の未然防止に寄与 ❏ 異常が発生したときに、速やかな初動対応ができる ❏ より開発に集中できるようになった 今日も 健康ですね おや? 熱がありますね 早期発見できた のですぐに対処す れば大丈夫 今日も元気に 活躍できるぞ
  10. © DMM.com 今後の展望 New Relicを導入、活用していく取り組みは支援先では当たり前に なってきている さらに進んだ取り組みとして、New Relicも活用しながら SLO(Service Level

    Objective)を全社的に導入していく取り組みを 進めている 開発に注力できる環境を整えるだけでなく、SLOを導入していくことで ユーザーの満足にも貢献できるようなサービスを、事業部と一緒に 実現していきたい