複数サービスを支えるマルチテナント型 Batch MLプラットフォーム

© LY Corporation Agenda 01 自己紹介 02 Batch ML プラットフォームとは？
03 Batch ML基盤の機能 04 Batch ML基盤の規模 05 Batch ML基盤で提供しているモデル 06 アーキテクチャ 07 まとめ 2

© LY Corporation 田邊拓実 (@ITF_BC) LINEヤフー株式会社データグループ DS統括本部5本部ML2部モデル開発3チーム 3 経歴
• 2023年3月筑波大学大学院卒業 • 2023年4月 LINE株式会社にMLエンジニアとして新卒入社学生時代の研究 • ブラックボックス最適化 • 強化学習業務 • LINEスタンプの推薦 • Batch MLプラットフォームの開発 • LINEニュースの推薦

© LY Corporation Batch ML vs Online ML Batch MLプラットフォームとは？
5 オフライン (Batch) オンライン (Real-time) 学習推論 (triton serving) ⚫ オフライン：データがまとまった後に一括で学習/推論を行う ⚫ オンライン：データが入ってくるたびにリアルタイムで学習/推論を行う

© LY Corporation Batch ML vs Online ML Batch MLプラットフォームとは？
6 オフライン (Batch) オンライン (Real-time) 学習推論 (triton serving) ⚫ オフライン：データがまとまった後に一括で学習/推論を行う ⚫ オンライン：データが入ってくるたびにリアルタイムで学習/推論を行う内製Batch ML基盤

© LY Corporation 内製BatchML 基盤 Batch MLプラットフォームとは？ 7 開発環境
本番環境 BatchML 基盤データベース学習済みモデル LINEスタンプ LINEニュース LINE公式アカウント属性推定各サービス YAMLファイル YAMLファイル

© LY Corporation Framework の紹介 Batch ML基盤の機能 9 Input Validation
Resource Estimation Parameter Tuning Train / Predict Output Validation Evaluation Output Table Push Metrics データセットのスキーマをチェックデータ量のチェックハイパーパラメータチューニングモデルの学習/推論出力のスキーマや値のチェック出力の評価 UniqueやNDCG、 Accuracyなど Hive Tableに出力データ量や評価結果をロギング

© LY Corporation Framework の紹介 Batch ML基盤の機能 10 Input Validation
Resource Estimation データセットのスキーマをチェックデータ量のチェック

© LY Corporation Framework の紹介 Batch ML基盤の機能 11 Parameter Tuning
Train / Predict ハイパーパラメータチューニングモデルの学習/推論

© LY Corporation Framework の紹介 Batch ML基盤の機能 12 Output Validation
Evaluation Output Table 出力のスキーマや値のチェック出力の評価 UniqueやNDCG、 Accuracyなど Hive Tableに出力

© LY Corporation Framework の紹介 Batch ML基盤の機能 13 Push Metrics
データ量や評価結果をロギング

© LY Corporation 本番環境での利用方法 Batch ML基盤の機能 20 pre-process train post-process
Hive Table Model Storage Hive Table Hive Table predict Batch ML基盤

© LY Corporation リクエスト数/day 約600 提供先のサービス 19サービスモデル数 76種類 22
Batch ML基盤の規模

© LY Corporation LINE アプリの様々な場所でのスタンプ推薦に利用 • スタンプショップホームタブ • スタンプショップ
プレミアムタブ • スタンプ詳細ページのitem to itemレコメンド • トーク画面 • 新年スタンプ LINEスタンプの推薦 24

© LY Corporation LINE アプリの様々な場所での公式アカウントの推薦に利用 • LINE公式アカウントホームタブ • LINE公式アカウント検索
• 詳細画面でのitem to itemレコメンド • 不正公式アカウントの検知 LINE公式アカウントの推薦 25

© LY Corporation モデルの紹介 Batch ML基盤で提供しているモデル 29 モデルタイプ説明
主な用途モデル数 recommendation インタラクションのログからアイテムのレコメンドを生成する。多くのモデルはtwo-towerモデルを採用。 Two-stage recommendでの1段階目で使用 12 ranker ユーザーごとのアイテムの並び替えを行う。 LightGBM on SparkやNN rankerがある。 Two-stage recommendでの2段階目で使用 9 embedding-mapping 画像やテキストからembedding vector を生成するモデル。 CB2CF*1レコメンドでのCB modelで使用 5 regression 回帰モデル。ユーザーの年齢推定などで使用 10 classification 分類モデル。ユーザーの属性推定などで使用 7 knn-search ベクトルデータを元にK近傍法で似ているアイテムやユーザー、おすすめアイテムを探索する。 CB2CFレコメンドでのレコメンド生成時に使用 4 1: https://arxiv.org/abs/1611.00384

© LY Corporation Recommendation model Batch ML基盤で提供しているモデル 30 embedding 年齢,
閲覧履歴, … ジャンル, 価格, … 購入/clickの履歴

© LY Corporation MaskNet Model (User Tower) 31 Batch ML基盤で提供しているモデル
Recommendation model Input Features EmbeddingBag • “MaskNet: Introducing Feature-Wise Multiplication to CTR Ranking Models by Instance-Guided Mask“*1で提案 • 特徴量の相互作用を効率的に求められる • Feature importanceも求められる • X (旧Twitter)社のレコメンドシステムでも Heavy Rankerとして採用*2 *1: https://arxiv.org/abs/2102.07619 *2: https://github.com/twitter/the-algorithm-ml/blob/main/projects/home/recap/README.md

Recommendation model Input Features EmbeddingBag EmbeddingBagで各特徴量のID集合を埋め込みベクトルに変換 (weighted sum pooling) • レコメンドデータによく見られるID数が多いsparse性の高いデータに強い • 出現回数や TF-IDF weight なども簡単に反映できる • pytorch.EmbeddingBagを使うことで少ないkernelで計算可能 • Sparse gradients にも対応できるので計算効率がいい LINEスタンプ LINEニュース LINE OA LINEマンガ属性推定広告

Recommendation model Input Features EmbeddingBag 複数のMaskBlockがembedding vectorからマスクを生成し、embedding vectorを要素ごとにスケーリング各MaskBlockの出力をconcatした後にMLPに通して user embeddingを得る

© LY Corporation その他の学習時の工夫 Positive sampling • 一部の正例を特徴側に残し残りを学習候補にする • frequencyの低いアイテム
(レアなアイテム) のサンプリング確率を調整可能にするパラメータ導入一部の特徴量のドロップアウトでの過学習の抑制 Follow The (Proximally) Regularized Leader*1 (FTRL) optimizerの利用 34 Batch ML基盤で提供しているモデル Recommendation model *1 https://dl.acm.org/doi/10.1145/2487575.2488200

© LY Corporation Recommendation model (backend) Batch ML基盤で提供しているモデル 35 Transfer
Manager ZMQ Parquet Data Parquet Data process process process process process process process process process process process process CPU pod CPU pod CPU pod CPU pod GPU pod GPU pod MPI MPI MPI Transfer Manager preprocess inference postprocess

© LY Corporation Recommendation model (backend) Batch ML基盤で提供しているモデル 36 リソース
• Preprocess, inference, postprocessで複数 pod/processをOpenMPIで並列化 • CPU podの数や1 podあたりのプロセス数を変えた複数のリソースタイプをタスクの規模に応じて使い分ける Parquet 読み込み • MPIによる並列読み込み • Shuffling • repeat

© LY Corporation Recommendation model (backend) Batch ML基盤で提供しているモデル 37 ZMQ
(ZeroMQ) • Preprocess pod  inference pod inference pod  postprocess pod のpod間通信に使用 • Transfer ManagerがProducer, Consumer, Controllerの状態やコネクションを管理 • producer がデータを送信するとZMQで複数のconsumerにデータを振り分け

© LY Corporation 概要アーキテクチャ 39 ユーザー Argo Workflows (Framework)
k8s cluster Model Config (ConfigMap) Model Store (ConfigMap) GPU Cluster MLflow S3 Storage リクエスト HDFS

© LY Corporation 開発/運用アーキテクチャ 40 Model Repository Docker/Helm Registry
k8s cluster Manifest Repository ConfigMap Secret ArgoCD Workflow Template Model開発者 Cluster 管理者 • モデルやフレームワークの実装を入れる Modelリポジトリとcluster独自の設定 (keytab, MLflow endpoint, model version, etc..) を入れる Manifestリポジトリを分離 • ModelリポジトリからモデルやフレームワークのDocker imageをpush • Manifestリポジトリでclusterに適用するdocker imageを指定することで週次のモデルのリリースや更新を行う

© LY Corporation マルチテナント運用アーキテクチャ 41 Model Repository Docker/Hel m
Registry Manifest Repository ConfigMap Secret ArgoCD Workflow Template Manifest Repository ConfigMap Secret ArgoCD Workflow Template k8s cluster A k8s cluster B • LINE系のサービスで使っていたBatch ML基盤をヤフー系のサービスで導入してもらいやすくする • アクセス権限が厳しいデータがあるなどの理由で自分たち独自でBatch ML基盤をデプロイしたい • Argo workflows templateをhelm chart化して管理、新規 cluster にBatch ML基盤を簡単にデプロイ可能 • cluster 独自の設定はhelm chartのパラメータや ConfigMap/Secretとして管理 Cluster A 管理者 Cluster B 管理者 Model 開発者

© LY Corporation オフラインでの学習/推論を中心に対応。Triton servingとしてオンライン推論にも対応ユーザーはYAMLファイルを入力することで、モデルの学習、推論、評価、サービングなどに対応 YAMLファイルのスキーマは全環境で一緒なので開発環境とプロダクション環境のギャップが少ない LINEスタンプやLINE公式アカウントを含めた19のサービスに対応 Argo Workflows
Templateのhelm chart化で複数のclusterに簡単にデプロイ可能 43 まとめ

複数サービスを支える マルチテナント型 Batch MLプラットフォーム

複数サービスを支える マルチテナント型 Batch MLプラットフォーム

More Decks by LINEヤフーTech (LY Corporation Tech)

Other Decks in Technology

Featured

Transcript

複数サービスを支えるマルチテナント型Batch MLプラットフォーム

複数サービスを支えるマルチテナント型 Batch MLプラットフォーム