月間4億メディアの画像解析を救え！みてね発・オンデバイスMLで挑む圧倒的コストカット作戦

月間4億メディアの画像解析を救え！みてね発・オンデバイスMLで挑む圧倒的コストカット作戦橋口昂矢開発本部たんぽぽ室 AIモデリンググループ

自己紹介 • 橋口昂矢（はしぐちたかや） • 2012年新卒（14年目） • エンジニア（iOS開発以外） •
最近の仕事 ◦ 競輪・オートレースのリアルタイム解析 ◦ みてねでの機械学習全般 ◦ バスケットボールの解析 ◦ サッカーの解析 @takaya1219

ちょこっと紹介 AI・コンピュータビジョン分野における世界最高峰の国際会議「CVPR 2025」の競技会「SoccerNet GSR Challenge」にて世界4位入賞

タイトル本文

今日の本題へ

家族アルバムみてねの規模 2015年のリリースから、7言語・175の国と地域で2,700万人以上の方にご利用いただいています。

月あたりのメディアアップロード数（参考値）

みてねのMLパイプライン（動画像）みてねユーザサーバ顔検出写真・動画解析パイプライン B検出 C推定 D抽出写真・動画の
アップロード解析実行解析結果

みてねのMLパイプライン（動画像）みてねユーザサーバ写真・動画のアップロード解析実行解析結果 GPU費用いくらかかってるんだろ？顔検出
写真・動画解析パイプライン B検出 C推定 D抽出

月あたりのメディアアップロード数（参考値）ビックリしたのがココらへん 4億

モバイルでやったら GPU費用浮くんじゃね？

当時の状況 2022年2月頃

2022年2月頃の顔検出の状況 • 1.8億メディア/月 • 顔検出はSageMaker(GPU)でTensorRT化(2020年)したS3FDが動作 ◦ 誤検出・未検出が散発、GPU費用膨張 ↓↓↓ 約1億円/年かかっていた
↓↓↓ アプリ側で動作するようにすればコストがゼロになる！ついでに精度も改善しなくては！

コストの将来予測「このまま放置すると2030年には約3~4億円/年」 2022~2030年までの累積では約17.6億円となります 6億メディア

2022年2月頃の状況 • みてね事業部のiOS/Androidエンジニアのリソースはない ◦ 開発本部側でやってもらえないか？ ↓↓↓ まずはサーバ側の高効率化次にオンデバイスでの推論開発本部みてね
事業部モンスト事業部支援

まずはサーバ側のモデル

新モデルの検討モデル名 WIDER FACE Hard 特徴強み弱みライセンス RetinaFace
AP:91.4% RetinaNetベースランドマーク等も高精度、遮蔽、角度に強い重い、リアルタイム性に欠ける InsightFace実装はMIT SCRFD AP:89.1% 軽量設計、高精度モバイルでも実用的、高精度導入事例が少ない InsightFace実装はMIT YOLOv5Face AP:84.67 YOLOv5ベース YOLO YOLO GNU GPL version 3

新モデルの検討モデル名 WIDER FACE Hard 特徴強み弱みライセンス RetinaFace
AP:91.4% RetinaNetベースランドマーク等も高精度、遮蔽、角度に強い重い、リアルタイム性に欠ける InsightFace実装はMIT SCRFD AP:89.1% 軽量設計、高精度モバイルでも実用的、高精度導入事例が少ない InsightFace実装はMIT YOLOv5Face AP:84.67 YOLOv5ベース YOLO YOLO GNU GPL version 3 -> RetinaFaceベースで新モデルを作成

旧モデルとの比較 • WIDER FACEは偏りがあるので、独自検証データセットを作成 • 誤検出率10.85%改善、未検出1.3%改善 • 推論時間2000ms、リアルタイム性は必要ないが遅い

RetinaFace (ResNet50)導入 • tﬂiteへ変換し不要なOPは削除 • 量子化でCPU実行可 • SageMaker → EKS

RetinaFace (ResNet50)導入 • tﬂiteへ変換し不要なOPは削除 • 量子化でCPU実行可 • SageMaker → EKS
↓↓↓ • コスト削減効果：従来比45.7%OFF ↓↓↓ • 技術的負債の解消、GPU依存からの脱却

オンデバイスに載せるため更に軽量化へ

RetinaFace(MobileNet) さらに軽量化へ • ResNet版はまだ重い ◦ モデルサイズ: 59MB ◦ 推論速度: 2000ms
(CPU) • モバイル端末で現実的に動かすにはさらなる軽量化が必須 ◦ BackboneをResNet→MobileNetへ ◦ 前処理/後処理をモデルに統合して実装負担を減らす

軽量化と高速化の成果 • モデルサイズ ◦ 59MB → 942KB（1/62） • 推論速度 ◦
2000ms → 200ms (1/10) • 精度 ◦ 99.22% → 98.64%

技術的工夫 Dynamic-Sized Tensor＋前後処理のモデル内包 • TFLite Dynamic-Sized Tensorを採用 ◦ [1, None,
None, 3] で可変長入力を許容: 多様なアスペクト比の入力をそのまま受け付け可能に • 前処理をモデルに内包 ◦ orientation補正 / resize（長辺制約・アスペクト維持）/ 正規化 / 色空間変換 ◦ → iOS/Android の実装差分を最小化、同一TFLiteモデルを呼ぶだけに • 後処理もモデルに内包 ◦ prior/anchor生成、decode、NMS、（必要に応じて）角度補正 ◦ → サーバ／クライアント間で同一ロジックを再現入力出力前処理後処理推論処理 TFLite

技術的工夫 • Delegateの方針 ◦ Dynamic Tensorは GPU/NNAPIが非対応、CPU(XNNPACK) をメインに最適化 ◦ op融合
/ 量子化 / 不要op削除（例：不要なlandmark周辺の演算を除去）で 200msを実現 • 固定長＋ゼロパディングは採用せず ◦ メモリ増・精度劣化懸念を回避。多様な実画像をそのまま処理できる設計方式入力の扱いデリゲート前後処理メモリ/精度実装コスト固定長+ゼロパディング固定 GPU/NNAPI可実装が必要メモリ増/精度影響あり高可変長 Dynamic Tensor 可変 CPU(XNNPACK) モデル内包実画像をそのまま処理低

MobileNet版の成果 • クライアント化を現実にした最初のモデル • サーバ依存からの脱却に向けた大きな布石 • 多様なアスペクト比・解像度をそのまま処理可能に • 前処理・後処理をモデルに内包 →
実装負担を大幅削減 • サーバコスト: 約1億円 → 約1,357万円（約86%削減） • 技術的負債を解消しつつ、事業継続性に直結する基盤を確立

モバイル実装

モバイル実装 1. 動画像アップロードと同時に一部の推論処理をモバイル端末で実行 2. モバイルの推論結果を用いて写真・動画解析パイプラインを実行

フォールバック設計 (特許出願済み) • 同じモデルをモバイル側とサーバ側に配置 • モバイルでの推論を優先的に実行 • 条件を満たさない場合のみサーバで再推論 ◦ 実際のフォールバック率：約1%以下

画像をアップロードする場合 1. ユーザーが写真をアップロード 2. 同時に端末側で顔検出モデルを実行 3. 推論結果（顔の位置・スコア）をサーバに送信 4. サーバは結果を利用して解析パイプラインを実行 a.
フォールバック時のみサーバで再推論（発生率1%以下）

動画をアップロードする場合 1. ユーザが動画アップロード 2. 動画から最大10フレームを切り出し 3. 切り出したフレームを端末側で推論 4. 推論結果とフレームをサーバに送信 ◦
フォールバック時のみサーバで再推論（発生率1%以下）

フレーム切り出しのコスト削減 • 従来：サーバで ﬀmpeg を実行 ◦ 動画から画像を切り出し → 推論 →
結果と画像を保存 ◦ FHDや4K動画も対象 → サーバ負荷 & 転送量が膨大 • 現在：クライアントで切り出し & 推論 ◦ 動画アップロードは変わらず継続 ◦ 切り出した画像＋推論結果をサーバに送信・保存 • 効果： ◦ サーバ側のﬀmpeg処理が不要に ◦ サーバ負荷を大幅軽減 ◦ 通信コストも削減 ◦ 対象：月間 6,500万本の動画（全体の16%）

おわりに

成果と未来の価値 • もし対策をしなければ、2030年までに累積で約17.6億円 • 今回の取り組みによりコストは実質ゼロに近づいた • 未来の課題を先んじて解決したことに大きな価値 • サービスの持続可能性と成長を支える基盤へ

ご清聴ありがとうございました

月間4億メディアの画像解析を救え！みてね発・オンデバイスMLで挑む圧倒的コストカット作戦

月間4億メディアの画像解析を救え！みてね発・オンデバイスMLで挑む圧倒的コストカット作戦

More Decks by MIXI ENGINEERS

Other Decks in Technology

Featured

Transcript