Upgrade to Pro — share decks privately, control downloads, hide ads and more …

GMO Research Tech Conference 2023

Avatar for Naomichi Yamakita Naomichi Yamakita
November 01, 2023
24

GMO Research Tech Conference 2023

Avatar for Naomichi Yamakita

Naomichi Yamakita

November 01, 2023
Tweet

More Decks by Naomichi Yamakita

Transcript

  1. 2 © Metaps Holdings, Inc. ベトナム・ハノイでのオフショア事業立ち上げからキャリアをスタートし、アプリケーション 開発からマネジメントまでを経験 2015年に株式会社メタップスに参画。徐々にクラウドインフラにも携わり、現在は同社で 横断的なテックリードやSREチーフエンジニアとして従事 2022年からはSREのための分散型プラットフォーム「SRE:shine」のプロダクトオーナー

    を兼務 AWS Dev Day Tokyo https://pages.awscloud.com/rs/112-TZM-766/images/G-1.pdf メタップスにおけるECSデプロイ戦略 https://aws.amazon.com/jp/blogs/news/ecs-deployment-strategy-at-metaps/ メタップスが取り組むシステム運用状況を可視化するダッシュボード開発 https://aws.amazon.com/jp/builders-flash/202210/metaps-monitoring-dashboard-development/ Platform strategy SRE Chief engineer Naomichi YAMAKITA プラットフォーム戦略部 SREチーフエンジニア 山北 尚道  プロフィール
  2. 3 © Metaps Holdings, Inc. • SREはSite Reliability Engineeringを実現するエンジニアリング手法 •

    システムを俯瞰的に捉え、インフラ設計・運用の自動化・障害対応・アプリケー ションのパフォーマンス最適化といった観点から可用性を担保し、システムの信 頼性を向上させることを目的とする SREとは?
  3. 5 © Metaps Holdings, Inc. 数値で見るSRE • SWE: 40人 •

    SRE: 5人 • 運用プロダクト: 13 • 機能改善: 385件/1,600日 (1ヶ月辺り7.2件のアップデートを実施 ) • アラート通知: 224回/月 • オンコール: 4回/月 • ポストモーテム: 1回/2ヶ月
  4. 8 © Metaps Holdings, Inc. メタップスHDにおけるSREのミッション • インフラ運用におけるスペシャリストとして活動し、堅牢で信頼性の高いプラット フォームを設計・構築する •

    運用の効率化を図る自動化の実装、緊急時のオンコール対応、クラウドネイティ ブな技術を利用したアプリケーション開発の支援、そしてセキュリティの強化を行 なう
  5. 9 © Metaps Holdings, Inc. SREチームの立ち上げ (2018年) • きっかけは「SREサイトリライアビリティエンジニアリング」 •

    インフラコード化 (IaC) への挑戦 ◦ 当時、周囲にもSREに関する知見はほとんどなく、情報が限られていた ◦ 初めの試みとして、インフラの構成を深く理解し、それをコードとして表現する作業に着手した ▪ このアプローチはインフラ管理の透明性を高め、変更管理を スムーズに行なう土台を作ることができた • 続発する課題への取り組み ◦ デプロイを自動化したい ◦ ログの分析基盤が欲しい ◦ 負荷対策でオートスケーリングしたい
  6. 10 © Metaps Holdings, Inc. インフラ基盤の安定化と継続的な改善 (2019〜2020年) • 安定したインフラ基盤の提供 ◦

    インフラ監視基盤の導入、オンコール体制の整備、サーバーレス構成 (マイクロサービスアーキ テクチャ) への移行など • インフラ基盤を多数のプロダクトに水平展開できる体制に ◦ 様々なプロダクトに対してインフラ基盤をスムーズに展開できるプラットフォームを構築 ◦ 各プロダクトは月に数本の機能アップデートを実施し、システムの効率性や安定性を向上させ、 同時にコストの最適化を実現できた
  7. 13 © Metaps Holdings, Inc. チームを編成 (2021年) • Platform SREs

    ◦ プロダクト開発に参加し、開発チームと連携してシステムの安定運用・サイトの信頼性向上に取 り組む • Embedded SREs ◦ インフラ基盤の構築や開発体験の向上をミッションとし、横断的に利用可能なプラットフォーム の設計・開発を推進する
  8. 14 © Metaps Holdings, Inc. • 運用するプロダクトが増えるにつれSREの負荷が上がる ◦ アラートの取りこぼしや早期検知が困難に •

    各種イベントログを集約したダッシュボード「SRE:shine」をSREチーム主導で開 発 ◦ イベントログの可視化 ◦ アラートの通知 ◦ トイルを削減するアプリケーションの提供 インフラの可視化 (2022年〜)
  9. 15 © Metaps Holdings, Inc. • 大変だったこと ◦ 知見がない中、試行錯誤でチームを成長させた •

    良かったこと ◦ 開発チームがドメインロジックに専念できる環境を整備できた ◦ プロダクト横断型のチームとして、安定性の高いインフラ基盤を実現できた ◦ SREチームメンバーはダッシュボード開発への関与を通じ、開発スキルを身につけることができ た • 今後の取り組み ◦ ダッシュボードのリリース SREチーム発足から5年経過して