生成AIは安心・安全に貢献できるのか

生成AI 安心・安全に   貢献できるか   藤坂祐介  DSC, CyberAgent,Inc. 

Introduction  自己紹介  藤坂祐介 (ふじさかゆうすけ)    2012年新卒入社  部署: 旧秋葉原ラボ→DSC 
担当: Orionなど  趣味: 旅行・気象・PC  属性: 2児父  00 

CAにおけるコンテンツモデレーション   本発表位置づけ   ・10/29発表 CADC 詳細版  - https://cadc.cyberagent.co.jp/2024/sessions/content-moderation-ai/
を  ご覧ください  01 

CAにおけるコンテンツモデレーション   OrionとAI  Orionと生成AI  まとめ  01  02  03  04  CONTENTS 

01 CAにおけるコンテンツモデレーション  

CAにおけるコンテンツモデレーション   CA メディア・サービス   ・多数メディア・サービスを提供   01 

CAにおけるコンテンツモデレーション   CA メディア・サービス   →たくさんコンテンツに支えられている   01 

CAにおけるコンテンツモデレーション   ユーザが生成するコンテンツ   ・ごく一部ユーザによる悪質なコンテンツが問題となっている   悪質コンテンツ  低品位  誹謗中傷 
詐欺  個人情報  そ他  01 

CAにおけるコンテンツモデレーション   ユーザが生成するコンテンツ   ・「悪質なコンテンツ」比率   01  <1/1000 

CAにおけるコンテンツモデレーション   ユーザが生成するコンテンツ   ・ごく一部ユーザによる悪質なコンテンツが問題となっている   低品位  誹謗中傷  詐欺 
個人情報  そ他  01  エロ・グロ・荒らし…  特定人物・組織などへ中傷・粘着荒らし …  金銭詐取・クリックベイト …  氏名・電話番号・SNSアカウント…  出会い目的利用・犯罪・自殺 … 

CAにおけるコンテンツモデレーション   悪質なコンテンツ問題   01  ・ユーザに対する影響   - ユーザへ
身体・精神へダメージ  - 経済的な損害  ・サービス・企業に対する影響   - サービス信頼低下→企業へ信頼低下→収益低下  - 法的なリスク  ・社会に対する影響   - 社会不安醸成 

CAにおけるコンテンツモデレーション   悪質なコンテンツ問題   01  ・影響を最小化するために   - 公開されている時間が長いほど影響が大きくなることが知られている 
- サービスや人員など兼合いで対応時間を決定   - 原則としてコンテンツや投稿したユーザを排除する  - 警告などアプローチをとるケースも  

CAにおけるコンテンツモデレーション   Orionと   ・コンテンツを確認・削除するためプラットフォーム   　(コンテンツ・モデレーションシステム )  01 

CAにおけるコンテンツモデレーション   Orion データループ   ・コンテンツデータを活用   01 

02 OrionとAI 

OrionとAI  コンテンツ   ・どんなコンテンツが投稿されるか   02 

OrionとAI  コンテンツ   ・テキスト　画像　動画像　…  02 

OrionとAI  コンテンツ   ・コメント・チャット　ブログ   02 

OrionとAI  コンテンツ   ・Orionが扱うコンテンツ特徴   - 多くサービスからコンテンツが集まってくる  -
データ種類も色々  - ゆえに長短がバラバラ(1文字〜数万文字)  - マルチモーダルなコンテンツも  02 

OrionとAI  コンテンツに対するフィルタリング   ・フィルタリング組み合わせ   02  コメント  チャット  ブログ本文 
ユーザ名  ワードフィルタ  連投検出  ルールベース  テキスト判別  画像判別  プロフィール画像 

OrionとAI  コンテンツに対するフィルタリング   ・フィルタリング組み合わせ   02  コメント  チャット  ブログ本文 
ユーザ名  ワードフィルタ  連投検出  ルールベース  テキスト判別  画像判別  プロフィール画像  計算量・リソース小  計算量・リソース大 

OrionとAI  テキストフィルタリング   02  テキスト分類   言語検出・翻訳   コンテンツ言語検出・翻訳
  テンプレート   特定文章に同一また類似したも検出   スパム分類   悪質なコンテンツ分類および検出   品質分類   コンテンツ「質良さ」分類  

OrionとAI  画像フィルタリング   02  画像分類   物体・顔など検出   特定物体
検出、顔部分検出   スパム分類   悪質なコンテンツ分類および検出   類似画像検出   過去投稿されたコンテンツに類似したも検出   QRコードデコーダ   2次元コード内容からフィルタリングを行う  

OrionとAI  現在フィルタリング課題   ・ワードフィルタとカバレッジ   - ひっかかりやすいワード→無実コンテンツが巻き込まれる 
- ワードを限定→有害なもが残る  ・複雑な表現   - 皮肉や比喩文章に対する対応  - 検索避け(文.字 🉇🉈 など)  ・学習データ   - 悪質なコンテンツ手口移ろう  - 社内データ限界  - 社外データ入手ハードル  02 

OrionとAI  現在有人レビュー課題   ・皮肉も含めた微妙な表現を判断できる   ・どんなタイプコンテンツにも柔軟に対応可能  
だが…    ・24時間体制維持が大変   ・コンテンツによる心身へ影響   - 特に悪質なコンテンツ  02 

03 Orionと生成AI 

Orionと生成AI  なぜ生成AI？  ・生成AIにより各課題を解決できるで？   —  ・ワードフィルタとカバレッジ   -
NGワードに頼らずコンテンツを判断可能  - プロンプトによるカバレッジ調整[TODO]  ・複雑な表現   - 比喩も含めた表現に対応可能  ・学習データ   - LLMなら十分なデータを持っていることが期待できる  03 

Orionと生成AI  生成AIによる業務改善例   ・ABEMA コメントから悪質なユーザを抽出   03  BigQuery  VertexAI 
+  Gemini  Spreadsheet 

Orionと生成AI  生成AIによる業務改善例   ・ABEMA コメントから悪質なユーザを抽出   03  BigQuery  VertexAI 
+  Gemini  Spreadsheet  投稿と同時に   フィルタリング +  一部オペレータが確認   コメントを格納   一部コメントに   生成AIを適用  結果を保存   オペレータ判断で   ユーザを排除  

Orionと生成AI  プロンプト   ・プロンプト例   03  以上リスト形式テキストそれぞれについて、以下内容が含まれる可能性を
0から1まで範囲で小数点第二位まで出力してください。 … a.誹謗中傷をしている b.他ユーザに不快感を与える … (計7要素)

Orionと生成AI  結果  ・排除されたユーザ数   - 概 1ヶ月程度で低位に推移  - 「肌感」でも好評  03 

Orionと生成AI  結果  ・コスト  - インフラ込みで0.1円未満/コメントで処理可能  - Gemini 利用料に限れ 0.01円未満  -
→安価に実現可能  03 

Orionと生成AI  課題点  ・プロンプト正当性   - コンテンツ+プロンプト=出力検証これから  ・ハレーション
  - 一部同一コンテンツで出力スコアが異なることがある  - ユーザコメント概観がわかれいいでそこまで問題視していない  ・処理時間   - 1件あたり約1秒以上かかる  - API レートリミットも存在  - 全量リアルタイム処理不可→フィルタリング代替として機能しない  ・セーフティフィルタ   - フィルタ解除をしてもらう必要あり  03 

Orionと生成AI  有人レビュー代替   ・生成AIによるオペレータ代替ができないか調査中 …  03 

04 まとめ 

まとめ  本日まとめ   ・コンテンツを安全に保つためにコンテンツモデレーションが必要   ・AI要素を使ったフィルタリングやモデレーションを提供している   ・生成AIを用いたコンテンツ
検出に成功した   ・これからやることもある   04 

まとめ  End  ・ノウハウをお持ち方ぜひお話聞かせてください！   04 

生成AIは安心・安全に貢献できるのか

生成AIは安心・安全に貢献できるのか

More Decks by CyberAgent

Featured

Transcript