DMMTVにおけるデータ蓄積とモデル改善

© DMM © DMM CONFIDENTIAL DMM TVにおける定性評価とモデル改善【DMM.com ×
Databricks】機械学習モデルの評価と改善合同会社DMM.com レコメンドGrowthチーム　金子剛士 2024/05/30

© DMM 自己紹介金子　剛士 (nadare) 2022年10月に合同会社DMM.comに入社複数サービスでのレコメンドエンジン作成を担当 Kaggle Competitions Master
最近の趣味はVRChatのBarでお酒を飲むこと副業で開発しているAIボイチェン(Paravo)でバ美肉しウィスキーを片手におしゃべりが楽しい 2 #dmm_databricks

© DMM 概要深層学習モデルはブラックボックス故、想定外の挙動により意図せぬ結果がでることがあります。 DMM TVはDMM内では新しいサービスで、これまで十分にデータが蓄積されてきたサービスへの導入と異なり、十分な検証データの無い状態でのレコメンド導入を行いました。そのため、データの分析とモデルの改善のサイクルを回して改善を行いました。今回はデータの蓄積と観察によってレコメンドを改善できた事例を3つほど紹介します。
3 #dmm_databricks

© DMM 1.たまたま出現したペアの強化による悪循環新着棚に出ていた目につくマイナー作品が異常なFBを受けていた 1. データが少ない作品についての学習メジャー作品色々なユーザーの例から類似アイテムを学習マイナー作品たまたま一緒に視聴されたメジャー商品を類似商品と学習
→大抵は一定以下の頻度しか出ていない作品は除去すると除ける 2.　間違ったレコメンドの学習の加速目を引くマイナー作品が新着でトップにでる →ものめずらしさでクリックされ、類似アイテムとしての学習が強化 →さらにレコメンド上位に表示され、クリックが加速 5 #dmm_databricks

© DMM 1.たまたま出現したペアの強化による悪循環導入初期の念入りなチェック - 導入後数日~数週はユーザーをサンプルして履歴とレコメンド結果を比較 - 定期的に実施で違和感に気づいたレコメンドモデル自体の改善 -
メタデータの追加、人気度を考慮したペナルティにより偶然を減らす - 学習のepoch数を減らし、間違ったペアの学習回数を減らす表示コンテンツの改善 - データが少ない初期ほどノイズを拾いやすい - 新着・特集などの表示コンテンツに気を付け、良質なFBをモデルに与える 6 #dmm_databricks

© DMM 2.過去データに引きずられるレコメンド導入後しばらくして、前やその前のクールの作品ばかりでると報告 → 作品のリリース時期ごとのクリック数/視聴数のダッシュボード作成依頼 2024年1月中旬のレコメンドされた作品の割合が右 -
レコメンド対象全体のランキングと比較し違和感 - 直近でログインしたユーザーに限定した定性評価・レコメンド出現回数でチューニング定性評価の対象を良く選ぶ 7 #dmm_databricks

© DMM 3.表示デバイスを考慮したリランキング作成モデルの比較を行った際、新モデルのパフォーマンスが想定より低かった。デバイスごとに差のあるデバイスとそうでないデバイスがあった。スマートフォン: 上位3作品がファーストビュー PC: 上位10作品がファーストビュー →ファーストビューを考慮したリランキングで改善
- ファーストビューが更新されるように - 多様な作品がファーストビューに表示されるように実デバイスでの表示の確認が重要 9 #dmm_databricks

© DMM オフライン定性評価のコツ過去のレコメンド結果やユーザーの視聴履歴・クリック履歴はBQに保存されていて jupyter notebookからBQを叩いて可視化・モデルの比較ができる u2i 視聴・クリック履歴と推薦結果を比較直近1日でログインがあったユーザー、登録したばかりのユーザー、復帰ユーザーなど様々条件を用意して、ランダムに表示
全体で推薦された合計をランキングにして、トレンドに沿っているか確認 i2i ジャンル・累計視聴数ごとにサンプリングしてi2iを確認 →結果をインタラクティブに確認できる仕組みの導入は大事 10 #dmm_databricks

© DMM まとめ DMM TVのレコメンド改善における、データの観測とそれに基づく改善の事例について紹介しました。生成AIでは結果をインタラクティブに確認することが重要で BQ + notebookやスプレッドシートで可視化を行うほか
gradioやTensorBoard、W&B等のツールの活用も有効です。より細かいチューニングの内容や、他事業における改善の例もありますので懇親会時に是非意見交換できればと思います。 11 #dmm_databricks

DMMTVにおけるデータ蓄積とモデル改善

DMMTVにおけるデータ蓄積とモデル改善

nadare

More Decks by nadare

Featured

Transcript

© DMM © DMM CONFIDENTIAL DMM TVにおける定性評価とモデル改善【DMM.com ×

© DMM 自己紹介金子　剛士 (nadare) 2022年10月に合同会社DMM.comに入社複数サービスでのレコメンドエンジン作成を担当 Kaggle Competitions Master

© DMM 1.たまたま出現したペアの強化による悪循環レコメンド導入最初期一部センシティブなマイナーコンテンツがレコメンド上位にくるようにマイナー作品なのになぜレコメンド上位に？ 4 #dmm_databricks

© DMM 1.たまたま出現したペアの強化による悪循環導入初期の念入りなチェック - 導入後数日~数週はユーザーをサンプルして履歴とレコメンド結果を比較 - 定期的に実施で違和感に気づいたレコメンドモデル自体の改善 -

© DMM 2.過去データに引きずられる改良前　　　改良後 8 #dmm_databricks

© DMM まとめ DMM TVのレコメンド改善における、データの観測とそれに基づく改善の事例について紹介しました。生成AIでは結果をインタラクティブに確認することが重要で BQ + notebookやスプレッドシートで可視化を行うほか