Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20250513_人とAIの共生とHAZの構築_DMMの4000万人基盤の_商品レビューをA...

 20250513_人とAIの共生とHAZの構築_DMMの4000万人基盤の_商品レビューをAI自動承認するまで.pdf

Avatar for matsui-dmm

matsui-dmm

May 13, 2025
Tweet

More Decks by matsui-dmm

Other Decks in Technology

Transcript

  1. © DMM Agenda • 1章. はじめに • 2章. 商品レビューシステムの概要と課題 •

    3章. 自動化までの取り組み • 4章. 自動化の成果 • 5章. 人とAIのこれから 2
  2. © DMM 4 松井 高宏(まつい たかひろ) • 所属: PF第1開発部 •

    業務: レビュープロダクト BEエンジニア • 役職: チームリーダー • SNS:@matsui_tk 会社紹介 • なんでもやっているDMM • 60事業以上を展開するエンタメ企業 • 売上高:3600億円、従業員:4500万人 自己紹介
  3. © DMM Executive Summary 5 概要 • 商品レビューのWEB公開の可否判断(=承認業務) をAIで自動化 ◦

    運営部が規約に基づき公開可否を判断 ◦ 公開誤りが企業ブランドに直結する 高リスクな業務 成果 • 年間50万件の承認業務を自動化 ◦ 【Before】 月150時間/公開まで7日 ◦ 【After】 6割を自動承認/公開10分以内(99.5%削減) 設計思想 • 「人とAIの共生」がテーマ、安全で段階的な自動化を推進 展望 • 将来的には8割までの自動化見込み レビュー承認業務の自動化プロジェクト
  4. © DMM 10 • 自社規約に基づき審査するが、文脈やニュアンスで承認可否が異なる ◦ 「下手すぎ、二度と出ないで」→ NG(攻撃的) ◦ 「下手だが、改善余地あり」 →

    OK(批判的だが許容) • この自然言語の曖昧さが、従来、自動化を困難にしていた レビュー審査の難しさ 誹謗中傷 「ゴミ」「◦ね」「糞」 苦情 「サイト運営が最悪」 意味不明 「ああああああ」 購入非推奨 「商品は詐欺」「偽物です」 📌 審査NGの文言例
  5. © DMM 11 生成AI導入検討
 • 直近で生成AIの言語解析力が高まり、ニュアンス把握も可能になった • そこで今回、レビュー承認業務へのAI導入を提案しました! 📌 生成AIによるメリット

    工数削減 承認作業を大幅に削減 ✂ スピード向上 最大1週間の待機時間がリアルタイム化 ⚡ 基準の一貫性 判断のブレがなくなる 📏 拡張性 投稿数増にも安定運用が可能 📈
  6. © DMM 生成AI活用した重要な理由  ── 継続性 × 説明可能性 (XAI) ── 12

    • 継続性 ◦ AI専門家でなくても継続し、改善できるシンプルさ ◦ BEエンジニア中心のチームでも全員改善が可能 • 説明可能性( XAI) ◦ 「〇〇が規約違反に該当」 とAIが説明できる為、現場が納得する ◦ 従来:レビューの理由説明が技術的にも難しく、    また人が対応する場合も多くの工数がかかってしまった
  7. © DMM Phase1 
 Phase2 
 Phase3 
 Phase4 


    Phase5 
 導入準備
 (PoC) 承認支援
 システム構築 精度向上
 (HITL) 
 自動化
 戦略 自動化シス テム構築 自動化までの5フェーズ 14 • 承認システムの自動化の実現は計5段階を経て 10ヶ月かけて実現 ◦ 承認支援システム (人主導) :AIの判断結果を参考に人が最終承認  ◦ 自動化システム (AI主導) :人の介在がない完全自動のシステム
  8. © DMM 業務分析 16 不適切なレビューの割合 • レビュー全体の約10%が規約違反 に該当 ◦ 20種類以上の規約違反

    (誹謗中傷30%、繰り返し投稿や禁則ワードも高頻度) •1.準備 ◦2.支援構築 ◦3.精度 ◦4.戦略 ◦5.自動化
  9. © DMM モデル評価 17 • 続いてこれらのレビューに対して各種モデルを評価 • テスト用のプロンプトや自社規約をAIに読み込ませて評価 モデル 正解率

    特徴 Claude 3 Haiku 81.5% 軽量モデル Claude 3 Opus 82.0% 高額モデル、コストが高い GPT-3.5 70.0% 一つ前のモデルで精度が低い GPT-4.0 78.5% 精度はそこそこだが、Haikuの方が良い •1.準備 ◦2.支援構築 ◦3.精度 ◦4.戦略 ◦5.自動化
  10. © DMM 18 *テストプロンプト # 役割 - あなたはレビューを審査するエージェントです。 # 評価プロセス

    - レビュー情報の内容を把握してください。 - 判断項目を順に評価してください。 - 該当する可能性がある場合は、NGと出力します。 # 判断基準 - 誤解を招く可能性のある表現 - 過度に攻撃的/下品な表現 # 出力形式 <output> <result>判定結果</result> <score>スコア</score> <reason>理由の説明</reason> <category>該当カテゴリ(N001)</category> </output> •1.準備 ◦2.支援構築 ◦3.精度 ◦4.戦略 ◦5.自動化
  11. © DMM 20 結論と方向性 結論 • AIの有効性は確認できたが、70~80%程度の精度では実務適用には不十分 • 今後の精度改善には、運営部の知見をAIに取り込むことが不可欠 次のステップ

    • まず運営部の知見を取り込みできるように「承認支援システム」を構築 •1.準備 ◦2.支援構築 ◦3.精度 ◦4.戦略 ◦5.自動化
  12. © DMM 22 システム構成 • 事前評価で高精度であった為、AWS Bedrockを利用し、構築 ◦ StepFunctions/Lambda /

    Bedrock / Aurora • レビュー投稿後に生成AIが判定し、運営部が確認する運用とした レビュー投稿 生成AI判定 運営部 ◦1.準備 •2.支援構築 ◦3.精度 ◦4.戦略 ◦5.自動化
  13. © DMM 運営部の確認画面 太郎さんのレビュー テストテストテストテストテストテストテストテストテストテスト テストテストテストテストテストテストテストテストテストテスト AIの見解 NG:文言不明 「テスト」という単語の無意味な繰り返しで構成されており 商品に関する有用な情報を提供していません •

    画面上には審査対象のレビューとAI結果及び理由が表示 ◦ 運営部は、内容を見て承認または却下を決定する構成 • これらの画面を踏まえて運営部の知見の取り込みを実施 承認 非承認 23 ◦1.準備 •2.支援構築 ◦3.精度 ◦4.戦略 ◦5.自動化
  14. © DMM 25 Agentic Workflow の構築 • Before:1つのAIがすべての承認判断を一括で担う構成(モノリシック) • 解決策:承認判断を役割分離し、複数のステップで個別AIに判断させる方針

        「AgenticWorkflow:LLM版MSA」 ステップ A ステップ B ステップ C 判断結果 AIも役割分離すれば、 迷わず判断が可能 ◦1.準備 •2.支援構築 ◦3.精度 ◦4.戦略 ◦5.自動化
  15. © DMM キーワード検出 文脈判定 Agentic Workflow の構築 精度向上 • ワークフローの構成

    ◦ キーワード検出と文脈判定による深くレビューを診断する階層構造 ◦ 文脈判定では、医療診断プロセスを模倣し、3ステップに分解し、精度を高める NG ワード検出 最終審査 精密分析 アノテーション スクリーニング 26 ◦1.準備 •2.支援構築 ◦3.精度 ◦4.戦略 ◦5.自動化
  16. © DMM 27 アノテーション • 不適切な可能性のある語彙を検出し、マーク • 判定結果はその後のステップで利用 NGワード検出 •

    NGワード検出されると、即時NG判定終了 例)出演者はクソだ →  出演者は*クソ*だ 例)きのう、◦ねと言われた -> NG *各ステップの例 最終審査 精密分析 スクリーニング アノテーション NG ワード検出 ◦1.準備 •2.支援構築 ◦3.精度 ◦4.戦略 ◦5.自動化
  17. © DMM 28 スクリーニング • 簡易検査項目に従い 問題点を洗い出すステップ • 検査異常なければ、判定終了 •

    異常があれば精密分析へ # 簡易検査 N001. 誹謗中傷に該当するか N002. プライバシー侵害に該当するか N003. 不明な文言が存在するか N004. 著作権侵害の可能性があるか N005. 過度な暴力的表現が含まるか ・・ 例) 出演者は*クソ*だ → N001の誹謗中傷に該当 NG ワード検 出 アノテーショ ン スクリーニング 最終審査 精密分析 アノテーション NG ワード検出 スクリーニング *各ステップの例 ◦1.準備 •2.支援構築 ◦3.精度 ◦4.戦略 ◦5.自動化
  18. © DMM 29 精密分析 • 該当したカテゴリを 専用プロンプトで分析 • 大量サンプルで分析 N001:

    誹謗中傷 # NG基準 - N001-01: 製作者の特徴を侮辱する表現 - N001-02: 攻撃的または下品な言葉遣い - N001-03: 作品や製作陣を不当に貶める表現 # NGサンプル - "太りすぎ、クソすぎる 頭悪すぎ" - "下手すぎ。素人以下。二度と見たくない" - "視聴者をバカにしてる。低レベル" NG ワード検 出 アノテーショ ン スクリーニング 最終審査 精密分析 アノテーション NG ワード検出 スクリーニング *各ステップの例 例) 出演者は*クソ*だ → 誹謗中傷の観点で精密分析 ◦1.準備 •2.支援構築 ◦3.精度 ◦4.戦略 ◦5.自動化
  19. © DMM 30 最終審査 • 精密分析の結果を再チェック • 結果と理由が整理され出力 <output> <reason>

    レビューを総合的に分析した結果、NGと判断 1. 全体的なトーンが否定的で評価 2. *クソ*という文言が存在 3. レビューの誹謗中傷に該当する </reason> <category>N001</category> <result>NG</result> </output> NG ワード検 出 最終審査 精密分析 アノテーショ ン スクリーニング アノテーション NG ワード検出 スクリーニング *各ステップの例 ◦1.準備 •2.支援構築 ◦3.精度 ◦4.戦略 ◦5.自動化 理由 結果
  20. © DMM 32 • 結果 ◦ Agentic Workflow構成により正解率が95%に向上(Phase1比:+15%) ◦ 1日1500件処理し、40ドル程度で実現

    • 次のステップ ◦ 自動化に向けて更なる精度改善を行う 評価結果 ◦1.準備 •2.支援構築 ◦3.精度 ◦4.戦略 ◦5.自動化
  21. © DMM *注視した3つの指標 • 特に NG検出率 (Recall)は、自動化の最も重要な指標 • 規約違反レビューを誤って公開しないために重視 35

    • 正解率(Accuracy) AIと人の判断がどれだけ一致したかを示す割合( NG/OK含む) • NG検出率(Recall) AIが不適切なレビューをどれだけ見つけられたかを示す割合 • NG精度(Precision) AIがNGと判定したレビューのうち、実際に NGだった割合 ◦1.準備 ◦2.支援構築 •3.精度 ◦4.戦略 ◦5.自動化
  22. © DMM 改善事例の紹介 37 ex1. プロンプト最適化 • 人とAIで判断が分かれたケースの正しい基準を設定 ◦ 適切

    × 不適切 レビュー投稿 プロンプト 反映 ◦1.準備 ◦2.支援構築 •3.精度 ◦4.戦略 ◦5.自動化
  23. © DMM 改善事例の紹介 39 ex3. 不確実性の対策 • AI判定結果に「OK/NG」とは別に「UK (Unknown)」としてカテゴリを新設 •

    AIの判断が難しいレビューは積極的に人に委ね、誤判定リスクを大幅に低減 例:判断が難しい事例 ◦ 動画再生をしないと判断できないケース ◦ 真偽不明な情報を含むケース Unknownカテゴリの導入 OK NG UK ◦1.準備 ◦2.支援構築 •3.精度 ◦4.戦略 ◦5.自動化
  24. © DMM 改善事例の紹介 40 ex4. ニュアンスの学習 • 誹謗中傷等の曖昧な概念をMany-Shot In-Context Learningで百以上、学習させる

    ◦ 「いまいち」といった個人的な感想・批評 = OK ◦ 「最悪、バカ」など強い侮辱のある表現 = NG ◦ 「センス疑う」など批判的だが断定しにくい表現 = UK ◦1.準備 ◦2.支援構築 •3.精度 ◦4.戦略 ◦5.自動化
  25. © DMM 42 しかし・・ • 99%を達成するも、残る 1%の人との判断差異が自動化の障壁に ◦ これらに重大リスクは確認できなかった ◦

    しかしLLMの自動承認自体が、前例がなく、誰も判断できない • 新たな戦略構築の必要性に迫られた
  26. © DMM 信頼スコアの導入 • 従来のAI判定結果(OK/NG/UK)に信頼スコアを付与。低スコアほど安全 ◦ 信頼スコア = Step(判断確定ステップ )×

    Grade(レビュー品質) Step (判断確定) Grade (レビュー品質) 信頼スコア スコア帯の 判定 スクリーニング S:高品質 0~0.05 OK A:良識 0.06~0.10 B:普通 0.11~0.15 精密分析以降 C:該当なし 0.16~0.30 D:曖昧 0.31~0.7 UK F:違反 0.71~1.0 NG 44 ◦1.準備 ◦2.支援構築 ◦3.精度 •4.戦略 ◦5.自動化 = ❌ ・スクリーニング=低スコア帯 ・精密分析〜=高スコア帯 ・レビュー品質=S~Fの六段階
  27. © DMM 45 信頼スコアの導入 • この信頼スコアを分析 ◦ 信頼スコアが0.15以下は、人の判断と 100%一致 (直近2ヶ月)

    ◦ 全体の70%のレビューが該当 してることが判明   ◦1.準備 ◦2.支援構築 ◦3.精度 •4.戦略 ◦5.自動化
  28. © DMM S:高品質 0~0.05 A:良質 0.06~0.10 B:標準的 0.11~0.15 C:該当なし 0.16~0.30

    D:曖昧 0.31~0.7 F:違反 0.71~1.0 46 信頼スコアの導入 • つまり信頼スコア = 0.15を基準としてAIと人の承認を分ける • これで実質約7割のレビューが自動化が可能 • この領域を 「人とAIの信頼を積み重ねた領域 =HAZ」として自動化を決定 ◦1.準備 ◦2.支援構築 ◦3.精度 •4.戦略 ◦5.自動化 AIが自動承認 人が承認
  29. © DMM HAZの概念(Human-AI Agreement Zone) • 人とAIの判断合意領域をAI主導で安全に自動化する新概念(私が提唱) • 従来のHITLが人主導、HAZは人とAIの合意領域をAI主導で自動化する概念 47

    安全性確保の概念 HITL:人主導 HAZ:AI主導 ◦1.準備 ◦2.支援構築 ◦3.精度 •4.戦略 ◦5.自動化 AIの結果を 人が最終 チェック 人とAIの 合意部分を 自動化
  30. © DMM Human-AI Agreement Zone: HAZ
 
 • AI主導で安全な自動化を実現 •

    あらゆる業務に適用可能 • 国内では類を見ない汎用フレームワーク 48 *自動運転は条件付きの特化型であり、HAZとは汎用性の性質が異なる
  31. © DMM Phase5 自動化システムの構築 49 Ph1 導入準備(PoC) Ph2 承認支援システム構築 Ph3

    精度向上 Ph4 自動化戦略 Ph5 自動化システム構築 ▶ 49
  32. © DMM • 承認支援システムを拡張し、自動化システムの環境を構築 • 安全対策のため環境は完全に分離 50 システム拡張 レビュー投稿 拡張

    【承認支援システム】 【自動化システム】 ◦1.準備 ◦2.支援構築 ◦3.精度 ◦4.戦略 •5.自動化
  33. © DMM • 迅速に本番環境への反映しつつ、安全な自動化を可能とする仕組みを構築 ◦ α版→ 承認支援環境にまずデプロイ、運営部が検証 ◦ β版→ 一定期間後、問題がなければ自動化環境にデプロイ

    51 段階的デプロイメント 【承認支援システム】 【自動化システム】 GitHub α版デプロイ β版デプロイ ◦1.準備 ◦2.支援構築 ◦3.精度 ◦4.戦略 •5.自動化
  34. © DMM 55 自動化実績 (2ヶ月) 図:人とAIの承認数の比較 ←60%自動承認! 承認数 (計82317件) •

    承認内訳(赤:人、青:AI ) によるとAI承認が60.1% (49481件)
  35. © DMM 56 自動化実績 (2ヶ月) 承認速度(ヒストグラム) • 人(赤): 通常1〜3日の割合で分布、最大7日かかることもある •

    AI(青): 10分以内 に100%承認  図:承認速度のヒストグラム 
 人:最大 7日 AI:10分 ←99.5%削減
  36. © DMM 57 他部門フィードバック • 運営部  :「最初は絶対に無理と思ったが 、実現がすごい! 」 • サポート部

    :「導入後も、ユーザー・クレームが一切ない! 」 実際の声 • 作業量が大幅に減り 、負担が軽くなった • 作業時間が半分近く短縮され、効率が上がった • 導入前は不安だったが、思った以上に効果が出た • 空いた時間で、他業務にも積極的に取り組めるようになった • さらなる自動化拡大にも期待 したい
  37. © DMM 成果 • レビュー承認の6割を完全自動化 • 公開時間を最大1週間 → 10分以内に短縮( 99.5%削減)

    自動化成功の鍵 • 段階的な協調   :いきなり自動化せず、人とAIの段階的な協調 • 責務分離の原則  : AIの判断工程を細分化し誤判定を抑制 • HITLの活用   :人の結果をFBし、精度を向上 • HAZの導入   :人とAIの合意領域を自動化 まとめ 58 〜 プロジェクト報告は、一旦終 〜
  38. © DMM 役割共有モデル - 人とAIの関係 - 60 • 人とAIの関係性に着目した「役割共有モデル 」を独自に定義

    ◦ レベルが上がるごとに、AIの判断の実行比重が大きくなる構造 • 本プロジェクトの中でLv2(補助型) → Lv3(合意型)へ自然に進化 人とAIの役割共有モデル(独自定義) Lv1
 Lv2
 Lv3
 Lv4
 Lv5
 指示型
 補助型 合意型 改善型 自律型
 人が操作 (単発実行)
 人が主導 (HITL)
 AIと合意 (HAZ)
 AIが学習 (RHLF)
 AIが主導 (A2A)

  39. © DMM 将来構想:Lv5案 • Lv5 自律型(→ 再評価・改善ともに AIが実施) ◦ AIがSNSや口コミを収集し、自らの判断基準を自動更新

    ◦ 人の関与なく、改善サイクルを自走(※AI 2027論文でも言及) 63 人とAIを共生を模索してきた私 だからこそ、ある宣言に至ります NEW
  40. © DMM だからこそ、私は宣言します 
 人が主役であること 
 – Trust in human

    leadership – 
 これがAI時代のあるべき姿です 
 あなたは、どこまでAIに任せますか? 
 これから共に考えていきましょう 
 AI時代の人間中心宣言 

  41. © DMM Appendix: Q&A(A-1) 質問 回答 プロンプトのバージョン管理はど のようにしていますか? GitHubで管理し、リリース後は S3に反映。

    S3上でもバージョン管理、問題があればすぐにロールバック 運用面でのモニタリング方法 生成AI判定時のエラーは Slack通知で把握。 毎週、3つの精度と人との判定差分を確認、調整します。 AIの判定ミスが起きた場合の対 応プロセスは? 6ヶ月間の検証で重大なミスはゼロ 。その為、自動化できている。 週次チェックで誤判定が見つかれば、運営部と連携して修正 100%保証はできるのか? 過去データで誤判定リスクは最小化していますが、 100%保証は難しい ただ人の判断にも問題は必ずあり、絶対ではない というのが現状。実際 年間40件ほどのクレームがあり、現クレーム数より多くならいのであれば OK モデルのバージョンアップ時はど う検証しているのか? まず承認支援環境でテストし、数日~数週間のチェック 問題なければ自動承認環境に展開。 具体的な応用事例はあるか? 本システムはコンテンツモデレーション全般に応用可能です。 たとえば、問い合わせメールの自動仕分けや審査にも対応できます。 70
  42. © DMM 質問 回答 過去レビューを学習している場合、 モデルに影響を与えるリスクは? 規約は頻繁に更新されない 。定例会で表現の追加・削除があれば見直す システム全体のコストや応答速度に どのような影響があるのか?

    スクリーニングで大部分レビューを除外できている。コストは低く、応答速度も 高速である為、影響なし。またこれ以上の高速性は求めていない 生成AIの判断プロセスやプロンプト チェーンの透明性はどの程度か? 現状は各カテゴリで使用しているプロンプト内容を共有している。 実際の判定結果を見てもらうことのみ。 ManyShotContextLearningは、ど のような基準で選定する? 運営部門と協力して、サンプル選定の基準を共同でチェックしている。 「事例データベース」として作成。大量のサンプルを活用し、日々の判定精度で その効果を確認 AIの自動承認によって、従業員の役 割が失われるのではないですか? その通りです。従業員には別の作業を割り当てることになります。 付加価値の高い業務に専念できるようになり、役割の質が向上します。 71 Appendix: Q&A(A-2)