20250326_生成AIによる_レビュー承認システムの実現.pdf

© DMM © DMM CONFIDENTIAL 生成AIから行動する AIへ商品レビューの自動承認化と判定精度100%への挑戦合同会社DMM.com　
PF第１開発部松井高宏 1 詳細資料はこちら

© DMM Agenda • １章. はじめに • ２章. 商品レビューシステムの概要と課題 •
３章. 生成AIの活用 • ４章. 自動化までの取り組み • ５章. 自動化の実績 • ６章. 今後とまとめ 2

© DMM 6 松井高宏（まついたかひろ） • 所属： PF第１開発部 •
業務：レビュープロダクト BEエンジニア • 役職：チームリーダー SNS • 登壇者：@matsui_tk • DMM Tech：@DMMcom_tech 自己紹介

© DMM プレゼン概要 • これまでの生成AIは「提案する」ことが主でした • 今後の価値は、重要な判断を「実行する」 AIにあります •
本事例はレビュー投稿における承認作業*をAIで大幅に短縮した成功例です 7 【AI導入前】 • 承認作業が月150時間 • WEB公開まで最大7日の待ち時間【AI導入後】 • 承認作業の60%完全自動化 • WEB公開が10分以内に完了 *運営部が規約に基づき、レビュー審査

© DMM 提供体制 • PF開発部：各事業部向けにレビューの共通機能（API）を開発 • 導入事業部：PFが提供した共通機能を活用し、自部門の事業展開 •
運営部：投稿・審査・承認を経て公開するコンテンツモデレーションを実施共通機能 PF開発部導入事業部運営部 12 WEB公開

© DMM 14 • 承認件数は、直近10年で10倍以上増加、約50万件/年 • 運営部が3人体制で不適切投稿をチェックに150時間かけていた • 投稿からWEB公開まで最大7日かかっていたレビュー投稿数推移（直近
10年） DMMの承認課題（AI導入前）

© DMM 15 • 月150時間の作業で規約違反のチェックを行っていた ◦ DMM独自のサービス利用規約に基づき判断 • 例：出演者の誹謗中傷、サイトへの苦情、意味不明な文言など
◦ 誹謗中傷: 「ゴミ」「◦ね」「出演すべきでない」「糞」 ◦ サイトへの苦情: 「サイト運営が最悪だ」 ◦ 意味不明な文言: 「ああああああ」 ◦ 購入非推奨: 「この商品は詐欺だ」「偽物です」レビュー審査の具体的内容

© DMM 16 • レビューには、ニュアンスや表現で承認可否が異なる難しさがあった • 過去にMLを一部利用したが、正確な判断が人以外では難しかった例）このレビューが誹謗中傷に該当するか考えてみてください 1. 「この俳優は下手すぎ。もう二度と出演すべきでない」
2. 「この俳優は下手だが、改善余地があるかもしれません」審査の難しさ • 1番目は、人物への誹謗中傷に該当 • 2番目は、個人批評の範囲内で問題なし

© DMM 18 活用提案  • 直近で生成AIの言語解析能力は、飛躍的に向上している • 「レビュー承認業務を生成 AIで自動化できないか」という話が上がった
• 効果が明確と判断され実施に至る室木Mgr 石垣部長 PF第１開発部　部長陣

© DMM 生成AI活用による４つのメリット 19 1.工数削減モデレーション大幅削減 2.サービスレベル向上最大1週間の待ちがリアルタイム公開
3.基準の一貫性生成AIの判定による基準の統一化 4.拡張性投稿数に関わらず安定運用の実現 ✂ ☑

© DMM 生成AI活用の重要な理由 20 継続性 × 説明可能性を重視している • 継続性
◦ AIの専門家でなくても調整できるシンプルさ ◦ BE エンジニアのチームでも、全員が継続改善できる • 説明可能性 ◦ どの表現が問題かを理由付けし、関係者が納得できる運用が必要 ◦ レビュー内の「〇〇」という表現が規約違反に該当と説明

© DMM 段階的なシステム構築 22 承認の自動化に向けて、段階的にシステムを構築した 1. 承認支援システム AIの判断結果を参考に運営部が承認を行うシステム 2. 自動化システム
AIが完全自動で承認までを行うシステム承認（公開）判断 + 承認（公開）判断結果【承認支援システム】【自動化システム】

© DMM 導入準備  (PoC) 承認支援  システム構築判定精度の   向上自動化 
戦略自動化システム構築全体計画 23 • 承認システムの自動化は計５段階を経て 10ヶ月かけて実現 • フェーズを経ることに徐々に自動化レベルを高めてきた ◦ 承認支援システムはフェーズ２で構築 ◦ 自動化システムはフェーズ５で構築 Ph1 Ph2 Ph3 Ph4 Ph5

© DMM Phase1 導入準備（PoC） Ph1 導入準備(PoC) Ph2 承認支援システム構築 Ph3 判定精度の向上
Ph4 自動化戦略の立案 Ph5 自動化システム構築 ▶ 24

© DMM Ph1. 導入準備（PoC） • 生成AIの可能性を検証する • 2024年4月〜5月（2か月） 25 各Part
• Ph1-1. レビュー状況の把握 • Ph1-2. モデル評価 • Ph1-3. 結論と方向性

© DMM Ph1-1. レビュー状況把握 26 不適切なレビューの割合 • レビュー全体の約10%が規約違反に該当 ◦ 20種類以上の規約違反がある
◦ 誹謗中傷30%、繰り返し投稿や禁則ワードも高頻度

© DMM Ph1-2. モデル評価 27 • 続いてこれらのレビューに対して各種モデルを評価 • テスト用のプロンプトや自社規約をAIに読み込ませて評価モデル
正解率特徴 Claude 2.1 69.5% 一つ前のバージョンで精度が低い Claude 3 Haiku 81.5% 軽量モデル Claude 3 Opus 82.0% 高額モデル、コストが高い GPT-3.5 70.0% 一つ前のモデルで精度が低い GPT-4.0 78.5% 精度はそこそこだが、Haikuの方が良い 200件（NG:100件/OK:100件）の誹謗中傷判定 (2024年4月に実施）

© DMM 28 # 役割 - あなたはレビューを審査するAIエージェントです。 # 評価プロセス 1.
レビュー情報の内容を把握してください。 2. 判断項目を順に評価してください。 3. 該当する可能性がある場合は、NGと出力します。 # コンテンツ特性 - 一般的な感想や意見は許容 - 商品やサービスの客観的評価は可 - 作品に関する建設的な意見は許容 # 判断基準 - 誤解を招く可能性のある表現 - 過度に攻撃的/下品な表現 # 出力形式 <output> <result>判定結果</result> <score>スコア</score> <reason>理由の説明</reason> <category>該当カテゴリ(N001)</category> </output> ＊テスト用プロンプト

© DMM 30 Ph1-3. 結論と方向性結論 • AIの有効性は確認できたが、70~80%程度の精度では実務適用には不十分 • 今後の精度改善には、運営部の知見を
AIに取り込むことが不可欠次のステップ • まずAIの判定結果を運営部が確認できる「承認支援システム」を構築

© DMM Ph2. 承認支援システムの構築 • 承認支援システムを構築する • 2024年6月〜7月（2か月） 32 各Part
• Ph2-1. システム構成 • Ph2-2. 運営部が確認する画面 • Ph2-3. ワークフローの構築 • Ph2-4. 評価結果承認（公開）判断結果【承認支援システム】

© DMM 33 Ph2-1. システム構成 • 使用技術　　　: AWS Bedrock (Claude3)
事前評価で高精度であった為 • 生成AI判定　　: StepFunctions → Lambda → Bedrock → Aurora（判定結果格納） • 処理フロー　：レビュー投稿 → 生成AI判定 → 運営部が確認、最終承認レビュー投稿生成AI判定運営部

© DMM Ph2-2. 運営部の確認画面太郎さんのレビューテストテストテストテストテストテストテストテストテストテストテストテストテストテストテストテストテストテストテストテスト AIの見解　NG:文言不明「テスト」という単語の無意味な繰り返しで構成されており商品に関する有用な情報を提供していません
• 画面上には審査対象のレビューとAI結果及び理由が表示される • 運営部はこれを確認し、承認または却下を決定する構成承認非承認 34

© DMM 36 ＊ハルシネーション（誤判定）の多発 • 複雑な承認判断をプロンプトに取り入れるほど AIが誤判定（ハルシネーション）を引き起こすことが判明 • これらは研究報告で指摘されており判定方法の根本的改善が急務となった
プロンプト量増加に伴う精度低下に伴う研究報告 (Needle in a Haystack)

© DMM 37 Ph2-3. ワークフローの構築 • 解決策：プロンプトを細分化し、複数のステップに分け個別AIに問い合わせ　　　　その結果を統合する「ワークフロー方式」を採用　　　　　　（Agentic Workflowと呼ばれ、段階的に意思決定をするAI
Agentの一形態）プロンプトA プロンプトB プロンプトC 判定結果 OK NG NG

© DMM キーワード検出文脈判定（３つのステップ） Ph2-3. ワークフローの構築精度向上 • ワークフローの構成
◦ キーワード検出と文脈判定による深くレビューを診断する階層構造 ◦ 文脈判定では、医療診断プロセスを模倣し、３ステップに分解し、精度を高める NG ワード検出最終審査精密分析アノテーションスクリーニング 38

© DMM 39 アノテーション • 不適切な可能性のある語彙を検出しマーク • 判定結果はその後のステップで利用 NGワード検出 •
NGワード検出されると、即時NG判定終了例）出演者はクソだ → 　出演者は*クソ*だ例）きのう、◦ねと言われた -> NG ＊各ステップの事例最終審査精密分析スクリーニングアノテーション NG ワード検出

© DMM 40 スクリーニング • 簡易検査項目に従い問題点を洗い出すステップ • 検査異常なければ、判定終了 •
検査異常あれば、精密分析へ # 簡易検査項 N001. 誹謗中傷に該当するか N002. プライバシー侵害に該当するか N003. 不明な文言が存在するか N004. 著作権侵害の可能性があるか N005. 過度な暴力的表現が含まるか N006. 商品と無関係な内容が含まれるか N007. 広告目的の内容が含まれているか例）出演者は*クソ*だ → N001の誹謗中傷に該当 ※前ステップでマークされた部分に着目し判定 NG ワード検出アノテーションスクリーニング最終審査精密分析アノテーション NG ワード検出スクリーニング＊各ステップの事例

© DMM 41 精密分析 • 該当カテゴリの専用プロンプトで詳細分析 • OK/NGサンプルを含め分析例）出演者は*クソ*だ
→ N001:誹謗中傷の観点で詳細チェック N001: 誹謗中傷 # NG基準 - N001-01: 製作者の特徴を侮辱する表現 - N001-02: 攻撃的または下品な言葉遣い - N001-03: 作品や製作陣を不当に貶める表現 # NGサンプル - "太りすぎ、クソすぎる頭悪すぎ" - "下手すぎ。素人以下。二度と見たくない" - "視聴者をバカにしてる。低レベル" NG ワード検出アノテーションスクリーニング最終審査精密分析アノテーション NG ワード検出スクリーニング＊各ステップの事例

© DMM 42 最終審査 • 精密分析の結果を再チェック • 思考を再整理し、最終出力 <output> <reason>
レビューを総合的に分析した結果、NGと判断 1. 全体的なトーンが否定的で評価 2. *クソ*という文言が存在 3. レビューの誹謗中傷に該当する </reason> <score>0.95</score> <category>N001</category> <result>NG</result> </output> 最終出力例（XML) 例）出演者は*クソ*だ → NG判定 NG ワード検出最終審査精密分析アノテーションスクリーニングアノテーション NG ワード検出スクリーニング＊各ステップの事例

© DMM • 大多数はスクリーニングで終了、不適切な可能性のレビューのみ精密分析 • 必要箇所に大量のトークンを使用する構成でコスト最適も実現判定数減 NG ワード検出最終審査
精密分析アノテーションスクリーニング＊補足：コスト最適化も実現 43 終了問題あり問題なし

© DMM 44 • 結果 ◦ AIによるワークフロー化で正解率が95%に向上（Phase1比：+15%） ◦ コスト効率: 1日1500件処理し、30ドルで実現
• 次のステップ ◦ 自動化に向けて更なる精度改善を行う Ph2-4. 評価結果

© DMM Phase3 判定精度の向上 Ph1 導入準備(PoC) Ph2 承認支援システム構築 Ph3 判定精度の向上
Ph4 自動化戦略 Ph5 自動化システム構築 ▶ 45

© DMM Ph3. 判定精度の向上 • 自動化に向けた精度向上のため、継続的改善を実施 • 期間: 2024年7月〜12月（約6ヶ月） 46
各Part • Ph3-1. 継続的改善アプローチ • Ph3-2. 判定精度の成果 • Ph3-3. 改善事例の紹介

© DMM 47 Ph3-1. 継続的改善アプローチ • 運営部と週次MTGで人とAIの判断差異を精査・分析 ◦ 6ヶ月で20万超のレビューを精査・分析 ◦
「精度向上」に加え「自動化して安全か」という２つの目的で実施検討改善検証結果分析

© DMM ＊継続改善で注視した３つの指標 • 特に NG検出率は、自動化において最も重要な指標であり、規約違反レビューを誤って公開しないために重視 48
• 正解率（Accuracy） AIと人の判断がどれだけ一致したかを示す割合（ NG/OK含む） • NG検出率（Recall） AIが不適切なレビューをどれだけ見つけられたかを示す割合 • NG精度（Precision） AIがNGと判定したレビューのうち、実際に NGだった割合

© DMM Ph3-3. 改善事例の紹介 50 ex1. プロンプト最適化 • 人とAIで判断が分かれたケースの正しい基準を設定 ◦
適切 × 不適切レビュー投稿プロンプト反映

© DMM Ph3-3. 改善事例の紹介 ex2. モデルのバージョンアップ対応   • 新モデル登場で安価で性能の高いモデルが使用可能となった ◦
現在はClaude3.7のモデルを適用 51

© DMM Ph3-3. 改善事例の紹介 52 ex3. 不確実性の対策 • AI判定結果に「OK/NG」とは別に「UK (Unknown)」としてカテゴリを新設
• AIの判断が難しいレビューは人に委ね、誤判定リスクを大幅に低減例：判断が難しい事例 ◦ 動画再生をしないと判断できないケース ◦ 真偽不明な情報を含むケース ◦ 人によっても判断が分かれるケース Unknownカテゴリの導入 OK NG UK

© DMM Ph3-3. 改善事例の紹介 53 ex4. ニュアンスの学習 • 誹謗中傷等の曖昧な概念をMany-Shot In-Context
Learningで学習させる ◦ １００以上の事例としてプロンプトに設定し、ニュアンスを獲得研究報告（ Many-Shot In Context Learning https://arxiv.org/abs/2404.11018）

© DMM ManyShot 事例 • 誹謗中傷のニュアンスをプロンプトで大量学習 ◦ 「いまいち」といった個人的な感想・批評 = OK
◦ 「最悪、バカ」など強い侮辱のある表現 = NG ◦ 「センス疑う」など批判的だが断定しにくい表現 = UK 54 OK 「内容はイマイチでした。」「セリフが多くて微妙です。」 NG 「監督は最悪。バカだと思う。」「不快、二度と出ないでほしい。」 UK 「意図が分からない作品でセンス疑う。」「演出はかなり悪いが、面白みを感じる」

© DMM 56 しかし・・ • 99%を達成するも、残る1%の差異が自動化の障壁に • 1%でも殺害予告など危険レビューの見逃しがあれば自動化は困難 •
新たな戦略構築の必要性に迫られる

© DMM Ph4. 自動化戦略の立案 • 自動化を推進する戦略を立てる • 2024年11月（1か月） 58 各Part
• Ph4-1. AIスコアの導入 • Ph4-2. AIスコアの分析 • Ph4-3. 自動化戦略の決定

© DMM Ph4-1. AIスコアの導入 • AIスコアとは、AIの判定結果にスコアを付与。低スコアほど安全 • 「人とAI判断が100%一致する領域」を特定し、安全領域から自動化するスコア算出ロジック
1. ワークフローの深さに紐づく ◦ スクリーニングで終了 → 低スコア ◦ 詳細分析まで実施　　 → 中スコア〜 2. 品質加味し、 OK判定は４区分に分割 OK 0~0.05 スクリーニング 0.06~0.10 0.11~0.15 0.16~0.30 詳細分析 UK 0.31~0.7 NG 0.71~1.0 高品質良質標準的該当なし 59 AIスコア

© DMM OK 高品質 0~0.05 良質 0.06~0.10 標準的 0.11~0.15 該当なし
0.16~0.30 UK 0.31~0.7 NG 0.71~1.0 自動化ライン AIが自動承認人が承認 62 Ph4-3. 自動化戦略の決定つまりは • AIスコア0.15を基準に自動化ラインを設定、AI承認と人の承認で分ける • この対応で実質、7割の自動化が可能

© DMM Ph5. 自動化システムの構築 • AIが完全自動で承認までを行うシステムを構築 • 2024年11月〜12月（2か月） 65 各Part
• Ph5-1. システム拡張 • Ph5-2. 段階的デプロイメント • Ph5-3. 承認後の安全策判断 + 承認（公開）【自動化システム】

© DMM • 迅速に本番環境への反映しつつ、安全な自動化を可能とする仕組みを構築 ◦ α版→ 承認支援環境にまずデプロイ、運営部が検証 ◦ β版→ 一定期間後、問題がなければ自動化環境にデプロイ
67 Ph5-2. 段階的デプロイメント【承認支援システム】【自動化システム】 GitHub α版デプロイ β版デプロイ

© DMM 72 運用実績 (2週間）承認速度 • 人（赤）: 通常1〜3日、最長1週間かかることもある
• AI（青）: 10分以内に100%承認　（99.5%削減）図：人とAIの承認速度のヒストグラム   待ち時間が 1週間　→ 10分に改修されました！

© DMM 73 運営部の反応 • 「最初は絶対に無理と思ったが、意外とうまくいっている！」という感想「全体の作業量がかなり減った」「作業が半分になって楽になった
」「最初は無理だと思っていたが、実現がすごい！」「別の業務もできるようになった」「もっと自動化を進めても良い。」

© DMM 成果 • レビュー承認の6割を完全自動化 • 承認時間を最大1週間から10分以内に短縮（ 99.5%削減）自動化成功の鍵 1.
いきなり自動化ではなく、人との協調の段階を踏む 2. 人と100%一致する領域を特定し、安全領域から自動化する 3. AIにおける複雑な判断は、ステップに分解し、精度向上を図る 4. フィードバックサイクルにより精度を改善するまとめ 77

© DMM 運用と最適化 83 バージョン管理 • Claude 3.0 → Claude
3.5 → Claude 3.7 • プロンプトはS3、GitHubで管理デプロイ & CI/CD 戦略 • α版（承認支援環境） → β版（一部本番） → 本番適用 • GitHub Actionsで自動管理 • ロールバック対応（誤判定発生時の即時修正）フィードバックループ • 週次MTGで3指標を確認、人の判断差分を精査（ 6ヶ月で20万件） • 「UKカテゴリ」導入で不確実なレビューを人へ回す • 検証以上に承認支援環境適用後の結果をもとに精度を判断判定ロジックの最適化 • Agentic Workflow でハルシネーション抑制 • Many-Shot In-Context Learning でプロンプトを最適化 • AIスコア 0.15以下で安全に自動承認

© DMM Q&A集（1/3）質問回答プロンプトのバージョン管理はどのようにしていますか？ GitHubで管理し、リリース後は S3に反映。 S3上でもバージョン管理、問題があればすぐにロールバック
運用面でのモニタリング方法生成AI判定時のエラーは Slack通知で把握。毎週、３つの精度と人との判定差分を確認、調整します。 AIの判定ミスが起きた場合の対応プロセスは？ 6ヶ月間の検証で重大なミスはゼロ。その為、自動化できている。週次チェックで誤判定が見つかれば、運営部と連携して修正公開後の安全策はあるか？ユーザーが不適切なレビューを即通報できる仕組みと、クレーム管理チームによる月々のモニタリング体制を整えています。 100%保証はできるのか？過去データで誤判定リスクは最小化していますが、 100%保証は難しいただ人の判断にも問題は必ずあり、絶対ではないというのが現状。実際年間40件ほどのクレームがあり、現クレーム数より多くならいのであれば OK モデルのバージョンアップ時はどう検証しているのか？まず承認支援環境でテストし、数日～数週間のチェック問題なければ自動承認環境に展開。具体的な応用事例はあるか？本システムはコンテンツモデレーション全般に応用可能です。たとえば、問い合わせメールの自動仕分けや審査にも対応できます。 84

© DMM 質問回答どうやって自動化領域を見極める？ルールが明確な部分は先に AI化し、表現が曖昧なケースは人が対応するハイブリッド運用を採用。スコアリングにより安全な領域から自動化過去レビューを学習している場合、モデルに影響を与えるリスクは？
規約は頻繁に更新されない。定例会で表現の追加・削除があれば見直すシステム全体のコストや応答速度にどのような影響があるのか？スクリーニングで大部分レビューを除外できている。コストは低く、応答速度も高速である為、影響なし。またこれ以上の高速性は求めていない生成AIの判断プロセスやプロンプトチェーンの透明性はどの程度か？現状は各カテゴリで使用しているプロンプト内容を共有している。実際の判定結果を見てもらうことのみ。 ManyShotContextLearningは、どのような基準で選定する？運営部門と協力して、サンプル選定の基準を共同でチェックしている。「事例データベース」として作成。大量のサンプルを活用し、日々の判定精度でその効果を確認 AIの自動承認によって、従業員の役割が失われるのではないですか？その通りです。従業員には別の作業を割り当てることになります。付加価値の高い業務に専念できるようになり、役割の質が向上します。 85 Q&A集（2/3）

© DMM 質問回答自動化による不具合が発生した場合、責任の所在はどうなるか？最終判断はサービスを展開している事業部となる。問題があれば迅速に対応・修正する仕組みになっています。 AIスコアの分類は、どのように決定してきたか？
まず、レビューを規約やノウハウに基づき NG、OK、UKに分類するその後、例えばOK判定の場合は、標準的、良質、高品質、該当なしの 4区分に分類、それがどのようなレビューに該当するかを明確化する。そして各区分に対してスコアと紐づける形です。システムのスケールアップやセキュリティ対策についてはどう対処していますか？ StepFunctionsはクラウド環境上では同時に 5000まで並列化を可能。社内のセキュリティ診断を実施。加えてレスポンスには XMLフォーマットの厳格な検証により、不正な入力が適切にブロックされることは確認。最終的には、クレーム管理で 4000万人の集合知を利用している。 86 Q&A集（3/3）

© DMM 87 RAGの内部実装プロンプト内に判断基準となる事例を事例データベースとして多数組み込む本来RAGとして実装しても良い部分今回、事例がそこまで多くならないのでプロンプトの内部実装でカバー Chain of thoght
AIに段階的に考える手順を示して判断精度を向上させる技術なぜNGと判断したかをStep By Stepで考えさせる RIG（参照情報生成）判定結果と対応する基準番号を紐づけて回答させ、誤判断を防止例：「NG [N006-N4]：容姿への不適切コメント」自己リライト方式 AIが一度出した回答を自分自身で見直し、改善する技術 AIは初回回答を批判的に分析し、より精度の高い判断を行う Temperature最適化一貫性のある厳格な判断を優先、値を0.7など低めに設定し、精度向上 Step Functions 非同期・並列処理非同期の同時並列実行で評価時間を大幅短縮過去データのバッチ処理により一括で数百のレビューを評価できるクロスリージョンインターフェースリージョン障害時に自動フェイルオーバーが可能となる対応サービス継続性の確保により AI判定の停止リスクを軽減採用技術アンサンブルLLM 複数AI回答の多数決方式、精度は多少向上するが AIの判定ばらつきによりプロンプトの原因と改善が難しくなるため却下 TOT （Tree of Thoughts） 1モデルに複数役割を演じさせ、回答させる 1個あたりの回答精度が低下するため却下不採用

20250326_生成AIによる_レビュー承認システムの実現.pdf

20250326_生成AIによる_レビュー承認システムの実現.pdf

More Decks by matsui-dmm

Other Decks in Programming

Featured

Transcript