Upgrade to Pro — share decks privately, control downloads, hide ads and more …

強い生成 AI 検知システムを実現する Data-Centric なデータセット管理

強い生成 AI 検知システムを実現する Data-Centric なデータセット管理

日々アップデートされ多様化する生成技術に対し、強い生成 AI 検知システムを実現する為には「良いデータセット、およびその管理の仕組み」が必要不可欠です。NABLAS の生成 AI 検知技術で取り組んでいる、Data−Centric なデータセット管理基盤の構築アプローチをご紹介します。

Yoshitaka Tomiyama

September 19, 2023
Tweet

More Decks by Yoshitaka Tomiyama

Other Decks in Research

Transcript

  1. 冨⼭ 吉孝 YOSHITAKA TOMIYAMA 職種 R&D Engineer / iLect Contents

    Manager 業務 NABLAS では製造業向け DX、新規技術開発、 AI ⼈材育成事業の教材企画‧開発‧講師業務に従事 趣味 ギター / ボドゲ / ⽂⿃ / 🏍 / 🥊 / 🍺 AI ミュージックバトル!『弁財天』#benzaiten 競技者募集中! @johannyjm1
  2. © NABLAS Inc. 3 NABLAS - 事業概要 AI コンサル・R&D
 AI

    人材育成事業「iLect」
 コンサルティング・技術研究開発、AI 人材育成までワンストップで提供
 
 東京大学で開発された DeepLearning 講座
 Kaggle ライクなコンペ課題など「実践的コンテンツ」 
 1 ユーザ 1GPU 使える iLect System
 AI の研究・開発の支援、共同研究 
 クライアントの状況に応じた技術面のコンサルティング 
 DX 導入支援、技術面のサポート 

  3. © NABLAS Inc.
 4
 クライアント&パートナー/受賞歴 主要顧客とパートナー 受賞歴 HONGO AI 2020


    HONGO AI AWARD
 ASPIC IoT・AI・クラウドアワード 2020
 AI部門ベンチャーグランプリ 
 大学発ベンチャー表彰 2020 
 日本ベンチャー学会会長賞 
 防衛装備庁
  4. © NABLAS Inc. 5 ⽣成 AI 技術‧検知技術に関する番組製作協⼒、メディア露出 ⽇本テレビ系列「カズレーザーと学ぶ。」(2022 年 11

    ⽉ 15 ⽇放送) ⽇本テレビ系列「カワシマの⽳」(2022 年 12 ⽉ 26 ⽇放送) 画像‧⾳声⽣成 ⽣成 AI 検知 NHK 総合「フェイク‧バスターズ」(2023 年 8 ⽉ 26 ⽇放送) テレビ東京「円卓コンフィデンシャル」(2023 年 8 ⽉ 13 ⽇放送) TBS 系列「news23」(2023 年 8 ⽉ 31 ⽇放送)
  5. © NABLAS Inc. 7 あらゆる形式のデータをAIが⽣成できるように “Generative Everything” AI Index 2021

    by Stanford University HAI テキスト (⽂章)‧画像‧⾳声‧動画など あらゆる形式のデータをAIが⽣成できるように ⼈間が作成したメディアと⾒分けが困難に
  6. © NABLAS Inc. 8 “AI-enabled future crime” Caldwell, M., Andrews,

    J.T.A., Tanay, T. et al. AI-enabled future crime. Crime Sci 9, 14 (2020). GAN 技術の進化によってもたらされた 「ディープフェイク」は 社会に最も差し迫った AI 犯罪の脅威の⼀つ
  7. © NABLAS Inc. 11 NABLAS の⽣成 AI 検知システム ⽣成 AI

    検知システム 複数のモデルを組み合わせて ⾼い性能を実現 迅速に解析 フェイク/ 本物 鑑定対象メディア 画像データ ⾳声データ データセントリックなアプローチ * Representative Forgery Mining for Fake Face Detection * Preliminary Forensics Analysis of DeepFake Images * DataPerf: Benchmarks for Data-Centric AI Development 画像⽤ API ⾳声⽤ API ⽣成検知 API モデルセントリックなアプローチ
  8. © NABLAS Inc. 14 Why Data-Centric? Generation using prompt Inpainting

    Face swap models Diffusion models Creative support tools 多様で⾼品質なモデル‧ツールが毎⽇のようにリリースされる
  9. © NABLAS Inc. 15 Why Data-Centric? Generation using prompt Inpainting

    Face swap models Diffusion models Creative support tools 多様で⾼品質なモデル‧ツールが毎⽇のようにリリースされる 過去の⽣成 AI を良く検知できたモデルがまた効くとは限らない
  10. © NABLAS Inc. 16 Why Data-Centric? Generation using prompt Inpainting

    Face swap models Diffusion models Creative support tools 多様で⾼品質なモデル‧ツールが毎⽇のようにリリースされる 過去の⽣成 AI を良く検知できたモデルがまた効くとは限らない データセットを柔軟に管理‧更新する仕組みが必要
  11. © NABLAS Inc. 21 DataPerf とは • Data-Centric AI を推進する組織

    • データセット作成を評価するベンチマーク‧コミュニティ • コンペやワークショップを開催
  12. © NABLAS Inc. 22 DataPerf が提案するベンチマークタスク https://arxiv.org/abs/2207.10062v1 Training Data Development

    • Training set creation • Data selection • Data debugging • Data valuation ..and more Test Data Development • Test set creation • Slice discovery ..and more
  13. © NABLAS Inc. 23 DataPerf が提案するベンチマークタスク https://arxiv.org/abs/2207.10062v1 Training Data Development

    • Training set creation • Data selection • Data debugging • Data valuation ..and more Test Data Development • Test set creation • Slice discovery ..and more ① どんな操作をする? ② どう評価する?
  14. © NABLAS Inc. 24 Training set creation:学習データセットを作る DataPerf の提案 モデルを固定し、学習データセットを改善(Model-Centric

    の逆) • ラベルの⾒直し • 不適切なデータの削除 ⽣成 AI 検知データ基盤構築 ⽣成 AI モデルを多様な形で活⽤し、データセットへ追加する • 新規リリースやアップデートがされるたびに対応 • リアル:⽣成のペアを作る - キャプションをプロンプトとし、リアル:⽣成のペアを作る - リアル画像を img2img し、リアル:⽣成のペアを作る - リアル画像の⼀部を指定した inpainting によりリアル:⽣成のペアを作る ← ③ 両者の塩梅は? ↓ ① どんな操作をする?
  15. © NABLAS Inc. 25 Data selection:学習データを減らす DataPerf の提案 • 例:active

    learning, core-set selection • モデルを固定し、学習データセットを⼩さくする • アノテーションや学習のコスト削減を狙う ⽣成 AI 検知データ基盤構築 • Training set creation によって(特に⽣成画像の)データセットが膨⼤な量になるため、 学習コストの削減のためにデータを削減する • 現在はランダムにサンプリングしているが、 選択アルゴリズムを使って同サイズデータセットにおける精度改善を図る ↓ ① どんな操作をする?
  16. © NABLAS Inc. 26 Test set creation:テストデータセットを作る DataPerf の提案 •

    モデルを固定し、評価データセットを改善 • (⼈間に解けるが、)モデルにとって厳しいデータを追加する • Model-Centric AI のベンチマークのスコアが飽和していることへの直接的な改善になる ⽣成 AI 検知データ基盤構築 ⽣成画像として検知したい画像の中には「⼤量な⽣成」が難しいものも多い(FireFly 等) • 評価データセットには少量であってもそれらを追加する • テストスコアが改善するように Training set creation を⾏う • 過学習しないように定期的にアップデートする ↓ ② どう評価する?
  17. © NABLAS Inc. 27 システム構成 Validation/Evaluation 結果を返す データの選択 固定されたモデル Training

    Evaluation demo Deploy Training Data service Training Dataset v3 Training Dataset v2 Training Dataset v1 Evaluation Dataset 多様な画像を⽣成
  18. © NABLAS Inc. 28 • ⽣成 AI 技術が⾼精度化‧⺠主化し、⽣成 AI 検知技術への社会的ニーズが⾼まっている

    • ⽣成 AI 検知システムを実現するデータセット構築にあたり、Data-Centric AI の視点での アプローチがマッチする • NABLAS では「強い⽣成 AI 検知システム」を実現するために、柔軟で素早くデータを管 理できる基盤を構築中である まとめ
  19. © NABLAS Inc. 29 WE ARE HIRING!
 一緒に働く仲間を募集しています!
 
 ▼

    採用HP
 https://www.nablas.com/jobs?lang=ja
 @nablas_inc
 https://twitter.com/nablas_inc
 https://www.facebook.com/nablas.inc
 https://www.linkedin.com/company/nablas