Upgrade to Pro — share decks privately, control downloads, hide ads and more …

月間4億メディアの画像解析を救え!みてね発・オンデバイスMLで挑む圧倒的コストカット作戦

 月間4億メディアの画像解析を救え!みてね発・オンデバイスMLで挑む圧倒的コストカット作戦

本資料は、2025年8月28日に開催された「MIXI MEETUP! ーTECH & DESIGN DAYー」で登壇した橋口の資料です。

MIXI MEETUP! ーTECH & DESIGN DAYー
https://mixi.connpass.com/event/363501/

Avatar for MIXI ENGINEERS

MIXI ENGINEERS PRO

August 28, 2025
Tweet

More Decks by MIXI ENGINEERS

Other Decks in Technology

Transcript

  1. 自己紹介 • 橋口 昂矢(はしぐち たかや) • 2012年新卒(14年目) • エンジニア(iOS開発以外) •

    最近の仕事 ◦ 競輪・オートレースのリアルタイム解析 ◦ みてねでの機械学習全般 ◦ バスケットボールの解析 ◦ サッカーの解析 @takaya1219
  2. 新モデルの検討 モデル名 WIDER FACE Hard 特徴 強み 弱み ライセンス RetinaFace

    AP:91.4% RetinaNetベー ス ランドマーク 等も 高精度、遮蔽、 角度に強い 重い、リアルタ イム性に欠ける InsightFace実装 はMIT SCRFD AP:89.1% 軽量設計、高精 度 モバイルでも実 用的、高精度 導入事例が少な い InsightFace実装 はMIT YOLOv5Face AP:84.67 YOLOv5ベース YOLO YOLO GNU GPL version 3
  3. 新モデルの検討 モデル名 WIDER FACE Hard 特徴 強み 弱み ライセンス RetinaFace

    AP:91.4% RetinaNetベー ス ランドマーク 等も 高精度、遮蔽、 角度に強い 重い、リアルタ イム性に欠ける InsightFace実装 はMIT SCRFD AP:89.1% 軽量設計、高精 度 モバイルでも実 用的、高精度 導入事例が少な い InsightFace実装 はMIT YOLOv5Face AP:84.67 YOLOv5ベース YOLO YOLO GNU GPL version 3 -> RetinaFaceベースで新モデルを作成
  4. RetinaFace (ResNet50)導入 • tfliteへ変換し不要なOPは削除 • 量子化でCPU実行可 • SageMaker → EKS

    ↓↓↓ • コスト削減効果:従来比45.7%OFF ↓↓↓ • 技術的負債の解消、GPU依存からの脱却
  5. RetinaFace(MobileNet) さらに軽量化へ • ResNet版はまだ重い ◦ モデルサイズ: 59MB ◦ 推論速度: 2000ms

    (CPU) • モバイル端末で現実的に動かすにはさらなる軽量化が必須 ◦ BackboneをResNet→MobileNetへ ◦ 前処理/後処理をモデルに統合して実装負担を減らす
  6. 技術的工夫 Dynamic-Sized Tensor+前後処理のモデル内包 • TFLite Dynamic-Sized Tensorを採用 ◦ [1, None,

    None, 3] で 可変長入力を許容: 多様なアスペクト比の入力をそのまま受け付け可能に • 前処理をモデルに内包 ◦ orientation補正 / resize(長辺制約・アスペクト維持)/ 正規化 / 色空間変換 ◦ → iOS/Android の実装差分を最小化、同一TFLiteモデルを呼ぶだけに • 後処理もモデルに内包 ◦ prior/anchor生成、decode、NMS、(必要に応じて)角度補正 ◦ → サーバ/クライアント間で同一ロジックを再現 入力 出力 前処理 後処理 推論処理 TFLite
  7. 技術的工夫 • Delegateの方針 ◦ Dynamic Tensorは GPU/NNAPIが非対応、CPU(XNNPACK) をメインに最適化 ◦ op融合

    / 量子化 / 不要op削除(例:不要なlandmark周辺の演算を除去)で 200msを実現 • 固定長+ゼロパディングは採用せず ◦ メモリ増・精度劣化懸念を回避。多様な実画像をそのまま処理できる設計 方式 入力の扱い デリゲート 前後処理 メモリ/精度 実装コスト 固定長+ゼロパ ディング 固定 GPU/NNAPI可 実装が必要 メモリ増/精度影響あり 高 可変長 Dynamic Tensor 可変 CPU(XNNPACK) モデル内包 実画像をそのまま処理 低
  8. MobileNet版の成果 • クライアント化を現実にした最初のモデル • サーバ依存からの脱却に向けた大きな布石 • 多様なアスペクト比・解像度をそのまま処理可能に • 前処理・後処理をモデルに内包 →

    実装負担を大幅削減 • サーバコスト: 約1億円 → 約1,357万円(約86%削減) • 技術的負債を解消しつつ、事業継続性に直結する基盤を確立
  9. フレーム切り出しのコスト削減 • 従来:サーバで ffmpeg を実行 ◦ 動画から画像を切り出し → 推論 →

    結果と画像を保存 ◦ FHDや4K動画も対象 → サーバ負荷 & 転送量が膨大 • 現在:クライアントで切り出し & 推論 ◦ 動画アップロードは変わらず継続 ◦ 切り出した画像+推論結果をサーバに送信・保存 • 効果: ◦ サーバ側のffmpeg処理が不要に ◦ サーバ負荷を大幅軽減 ◦ 通信コストも削減 ◦ 対象:月間 6,500万本の動画(全体の16%)