Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20250902_Data-Centric AI勉強会【Visual Bankグループ】

Avatar for YutaMurayama YutaMurayama
September 02, 2025
160

20250902_Data-Centric AI勉強会【Visual Bankグループ】

Avatar for YutaMurayama

YutaMurayama

September 02, 2025
Tweet

Transcript

  1. © Visual Bank inc. 2 Visual Bankグループ アマナイメージズの展開する『Qlean Dataset』沿革 40年以上の歴史を持つアマナイメージズと「創造性の黒子」を掲げるVisual

    Bankがシナジーを発揮し、AI学習データセット ソリューション『Qlean Dataset』を推進しております。 2022年4月1日 VisualBank株式会社創業 2023年8月10日 AI学習用データ 「Qlean Dataset」始動 2024年11月28日 東洋経済新報社とパ ートナーシップ を締結 2024年2月29日 総額4.56億円となる シリーズAラウンドの資金調達 株式会社コルクの佐渡島庸平氏と 株式会社THE GUILD深津貴之氏が参画 2023年12月5日 日経クロストレンド 「未来の市場をつく る100社」選出 2023年9月11日 週刊東洋経済 「すごいベン チャー100」 選出 2025年3月31日 GENIAC採択、約15 億円の助成決定 2024年7月23日 産総研グループのAIST Solutionsと共同研究契約 を締結 2025年1月25日 Forbes誌の 「Japan’sAI50」 に選出 2024年6月18日 THE PEN株式会社 創業
  2. CONFIDENTIAL © Visual Bank inc. Visual Bank株式会社の事業ポートフォリオ 次世代型データインフラカンパニー あらゆるデータの可能性を解放し、日本のAI開発力を最大化する。 高

    品質 (Q uali ty) +権 利ク リア (Cl ean ) な デ ータ を、A I開 発業 界へ も提 供 写 真 ・ 動 画 ・ イ ラ ス ト 、 漫 画 キ ャ ラ ク タ ー な ど の 創業40年、データ素材の権利管理・流通のプロフェッショナル 40年の歴史を持つ 権利許諾の老舗企業 国内トップの 権利クリアランス技術 創業1984年。人物、風景、歴史アーカイブ、海外作品、美術など、幅広いジャンルの 作家/クリエイターからビジュアル素材をお預かりし、適切に管理・流通・対価還元を行う 「安心・安全のアマナイメージズ」として広告・出版・報道・Web制作などとパートナーに。 著作権や個人情報保護法などへの厳格な意識から、漫画キャラクターなどのお預かりも増える 体 力・ 金銭 ・時 間の 制約 に拘 束さ れ る 漫 画・ アニ メ制 作支 援事 業を 展開 AI学習用データセット開発サービス 24年6月に設立したジョイントベンチャー 3 AI領域 IP領域 ノウハウ 知 見
  3. CONFIDENTIAL © Visual Bank inc. 「IP×A I×権 利」 領域 で、

    ク リエ イタ ー支 援サ ービ スを 展開 高 品質 (Q uali ty) +権 利ク リア (Cl ean ) な デ ータ を、A I開 発業 界へ も提 供 写 真 ・ 動 画 ・ イ ラ ス ト 、 漫 画 キ ャ ラ ク タ ー な ど の ビジュアル素材の権利の管理・流通のプロフェッショナル 40年の歴史を持つ 権利許諾の老舗企業 国内トップの 権利クリアランス技術 創業1984年。人物、風景、歴史アーカイブ、海外作品、美術など、幅広いジャンルの 作家/クリエイターからビジュアル素材をお預かりし、適切に管理・流通・対価還元を行う 「安心・安全のアマナイメージズ」として広告・出版・報道・Web制作などとパートナーに。 著作権や個人情報保護法などへの厳格な意識から、漫画キャラクターなどのお預かりも増える 24年6月に新設したジョイント・ベンチャー 体 力・ 金銭 ・時 間の 制約 に拘 束さ れ る 漫 画・ アニ メ制 作支 援事 業を 展開 AI学習用データセット開発サービス 各グループ会社が果たす役割 学習用データセット開発機能 データ構造化(データ選別・ アノテーション・データパッケージ化) データ新規制作 要件定義・開発者伴走 生成ユースケース創出機能 AI基盤モデル開発 高品質×多量なデータマネジメント機能 2.4億点の データ保管 権利許諾・交渉 国内外からの データ仕入れ 対価還元 漫画家の連載伴走 データセット構築 データの供給 フィードバック/リクエスト 次世代型データインフラカンパニー あらゆるデータの可能性を解放し、日本のAI開発力を最大化する。 4
  4. CONFIDENTIAL © Visual Bank inc. 実証テーマ❶ IP産業向けのファインチューニング及びその他開発用基礎データセットの整備 基礎データセットの要件整理を行い、100 万種類・概念を収集。フィードバックをもとに拡充 キャラクター

    データ 背景・ オブジェクト データ 作画表現・ 演出データ 原画・設定資料3Dモデル・トゥーンレンダリングデータ ラフスケッチ・線画・彩色前後のデータ・作画手順データ デフォルメ・リアル調・ファンタジー系キャラクターなど、学習用データとして新規制作 森林・都市・室内・異世界など多様なシチュエーション 実在都市のランドマーク、架空都市の地形・建築構データ アクセサリー・家具・電化製品・武器・装飾品などの固体物データ 洋服・和装・特殊コスチューム(SF、ファンタジー)・皺や質感データ 風・揺らぎ・オーラ・圧・エフェクト表現など 度線・集中線・爆発・煙・IP 産業に共通する擬音(ゴゴゴ、ザッなど) 喜怒哀楽、微細な表情変化データ 戦闘・スポーツ・日常動作の多様なポーズデータ 収集 収集 制作 制作/収集 制作/収集 制作/収集 制作/収集 制作/収集 制作/収集 制作/収集 制作/収集 IP ホルダー保有の 公式キャラクターデータ 作家・制作会社が保有する 制作プロセスデータ 新規制作キャラクターデータ 雑景・背景データ 実在・架空の都市データ 小物データ 服装データ 抽象物データ 漫符・効果線・擬音表現データ 人物表情データ 人物アクション・ ポーズ推計データ 6
  5. CONFIDENTIAL © Visual Bank inc. 開発要件に応じてデータを拡充。データ収集・提供・対価還元・フィードバックの循環を回していく。 実証テーマ❷ IP産業に特化したデータライブラリシステムの構築とデータ利活用に係る社会基盤の整備 データのデジタイズ・保管 万全の災害対策、徹底

    した空調管理、 高度なセキュリティ環境で 最高の原画保管環境を実現 データの取引契約 「データ提供~収益還元」を網羅した 業界規範となる契約雛形の精査と作成 データの授受・セキュリティ 外部ハッキングやデータ流出を 回避できる安全・安心の管理体制の実証 1. データ収集・格納 1-1 データ取得 1-2 データフォーマット標準化 1-3 標準化されたデータスクリーニングプロセスの実行 2. データの加工・アノテーション 2-1 標準化されたデータ加工プロセスの実行 2-2 標準化されたアノテーションプロセスの実行 3. データ管理・構造化 3-1 データ構造化 3-2 メタデータ管理 3-3 推論エンジンによるデータ構造化の最適化 4. データ提供・アクセス管理 4-1 データ利用規約の承認 4-2 アクセス権限管理 4-3 データ検索・フィルタリング 5. データ拡充の仕組み 5-1 データリクエスト管理 5-2 需給マッチングの仕組み 5-3 データ拡充プロセス最適化 6. 個別IPの利用促進 6-1 個別IP利用リクエスト/取引要件送付機能 6-2 個別IPの取り扱いガイドラインとの適合性確認 6-3 成約マッチングの仕組み 6-4 個別IPデータの提供の仕組み 7. セキュリティ・ガバナンス 7-1 権利管理体制・仕組み 7-2 データ利用規約の合意 7-3 個別IP利用規約の合意 7-4 セキュリティ 8. 実装 8-1 SDK開発・実装(各種) 8-2 API開発・実装(各種) 8-3 システムインフラ整備 9. テスト 9-1 ユニットテスト 9-2 統合テスト 9-3 セキュリティテスト 10. 運用・モニタリング 10-1 利用状況分析 10-2 システム監視 10-3 生成プロンプトチェッカーのAPI化/ 外部ファインチューニングモデルとの連携の仕組みを整える 11. 効果測定(非システム機能) 11-1 データ利用実績の定量評価 11-2 利用者フィードバックの収集・分析 11-3 モデル精度向上への寄与評価 11-4 エコシステムの発展性評価 実証協力 実証協力 実証協力 データ ライブラリ 開発要件 (提案書 P.15) デ I タ ホ ル ダ I A I 開 発 者 データ格納 データ利用 フィードバック/ リクエスト 対価支払 対価還元 7
  6. CONFIDENTIAL © Visual Bank inc. ファインチューニング ファインチューニング 基盤モデル 学習データの重要性 (例)画像生成技術を使って

    ペン入れを実施する 下書き/ネーム原稿 学習内容 出力の傾向 特定のIP (作家性) IP産業(漫画・アニメ) 固有の概念 大量多様な画像 特定の作家のオリジナルな 描画を再現した表現 「漫画・アニメ技術」を 抽象化した汎用的な表現 学習されている実写画像等 を元にした漫画風の表現 出力の傾向 (中~大規模データ / 数万~数十万点) (大規模データ / 数億点) (小規模データ / 数~数十点) 9 9 CONFIDENTIAL
  7. CONFIDENTIAL © Visual Bank inc. 「IP×A I×権 利」 領域 で、

    ク リエ イタ ー支 援サ ービ スを 展開 高 品質 (Q uali ty) +権 利ク リア (Cl ean ) な デ ータ を、A I開 発業 界へ も提 供 写 真 ・ 動 画 ・ イ ラ ス ト 、 漫 画 キ ャ ラ ク タ ー な ど の ビジュアル素材の権利の管理・流通のプロフェッショナル 40年の歴史を持つ 権利許諾の老舗企業 国内トップの 権利クリアランス技術 創業1984年。人物、風景、歴史アーカイブ、海外作品、美術など、幅広いジャンルの 作家/クリエイターからビジュアル素材をお預かりし、適切に管理・流通・対価還元を行う 「安心・安全のアマナイメージズ」として広告・出版・報道・Web制作などとパートナーに。 著作権や個人情報保護法などへの厳格な意識から、漫画キャラクターなどのお預かりも増える 24年6月に新設したジョイント・ベンチャー 体 力・ 金銭 ・時 間の 制約 に拘 束さ れ る 漫 画・ アニ メ制 作支 援事 業を 展開 AI学習用データセット開発サービス 各グループ会社が果たす役割 学習用データセット開発機能 データ構造化(データ選別・ アノテーション・データパッケージ化) データ新規制作 要件定義・開発者伴走 生成ユースケース創出機能 AI基盤モデル開発 高品質×多量なデータマネジメント機能 2.4億点の データ保管 権利許諾・交渉 国内外からの データ仕入れ 対価還元 漫画家の連載伴走 データの供給 フィードバック/リクエスト 次世代型データインフラカンパニー あらゆるデータの可能性を解放し、日本のAI開発力を最大化する。 11 データセット構築
  8. 13 プロジェクトの スコープ定義 データ準備 モデル トレーニング 本番 デプロイ • PJの要件、スコープの

    fix • スケジュール決定 • データ収集 • アノテーション • ノイズ除去 • モデル選択、構築 • 精度検証 • チューニング • 再検証 • システム組み込み • 運用 • 精度検証 データセントリックとは?
  9. 14 プロジェクトの スコープ定義 データ準備 モデル トレーニング 本番 デプロイ • PJの要件、スコープの

    fix • スケジュール決定 • データ収集 • アノテーション • ノイズ除去 • モデル選択、構築 • 精度検証 • チューニング • 再検証 • システム組み込み • 運用 • 精度検証 データ中心 (Data-centric) …データ収集、アノテーション、エンジニアリング(ノイズ除去等)をして精度向上 データセントリックとは?
  10. 18 モデルセントリックとデータセントリックの比較 ベースライン Model-centric Data-centric 76.2% 76.2% +0% 93.1% +16.9%

    https://www.deeplearning.ai/wp-content/uploads/2021/06/MLOps-From-Model-centric-to-Data-centric-AI.pdf ベースラインは76.2%の精度(目標90%)でModel-centricとData-centricの2つチームをわけて3ヶ月改善 実施した結果。データセントリックなアプローチをしたチームは約17%の精度改善に成功
  11. CONFIDENTIAL © Visual Bank inc. 20 Qlean Datasetにおける「データセントリックなご支援」 Qlean Datasetでは

    データ収集・アノテーションの両側面で データセントリックなAI開発をご支援
  12. CONFIDENTIAL © Visual Bank inc. 21 Qlean Datasetにおける「データセントリックなご支援」 Qlean Datasetでは

    データ収集・アノテーションの両側面で データセントリックなAI開発をご支援 「そもそも高品質なデータを用意する」 「あらゆるデータセットを保持する」という ご支援
  13. CONFIDENTIAL © Visual Bank inc. 収録プラン ①グループの作成 5人/1グループを40グループ作ります→合計200名 収録については以下のように実施させていただくことで検討しております。 ②1グループにおいて、5人の総当たり収録を3回実施

    5人の総当たり、「A vs B~E(4収録)」、「B vs C~E(3収録)」、「C vs D~E(2収録)」、「D vs E(1収録)」で、 1回の総当たりで合計10収録を実施することを想定。 1回の総当たりで、1人のデータは、5分×4回で20分の収録。 テーマを変え、この総当たりを3回実施することで、合計1人1時間のデータを作成します。 A B C D E A ① ② ③ ④ B ① ⑤ ⑥ ⑦ C ② ⑤ ⑧ ⑨ D ③ ⑥ ⑧ ⑩ E ④ ⑦ ⑨ ⑩ ※総当たりイメージ ③収録時間 1回の総当たりの収録は、1収録5分×10収録+入れ替え等の作業20分で、計70分を想定。 総当たりを3回実施するので、1グループの収録は210分程度の見込みです。 途中で収録したデータの確認をするため、約60分の確認時間を設けて、総計270分(4時間30分)を想定しております。 →1日で2グループを収録、これを20日間(40グループ)実施して、合計200名分のデータを収録します。
  14. CONFIDENTIAL © Visual Bank inc. 撮影概要 26 ▪水平ピッチ:50cm~1m 建物俯瞰図 ▪被写体距離(ビルからレンズの距離):

    可能な限り、車道を挟んだ反対側の歩道から撮影 カメラのすぐそばの障害物はNG A面 B面 C面 D面 ▪カメラ高さ3点 腰 / 胸 / 頭上 カメラの高さはカメラマン毎に個人差があっても許容できる 3 m 50cm~1mの間隔で横移動して撮影 ▪撮影クルー:カメラマン4人 1チーム ①A面~D面に1人ずつ配置して撮影 ②各コーナーでは1 m程回り込み5~6枚余分に撮影 ③1つの建物当たりの撮影枚数は数千枚を想定 ④撮影時間は2時間以内を想定 ※建物の面積等の条件で変動 ⑤撮影コースと角度は事前に現地周辺の地図情報を用いて計画 ▪カメラの水平度 全てのカメラにおいて水平計を用いて水平を保ち、撮影 ▪天候 OK:晴、曇り NG:雨・雪 撮影途中で雨が降った場合は、その日は中止 ▪カメラの角度 上部:下向き、中部:水平、下部:上向き XXm 上向き XXm 水平 XXm 下向き
  15. CONFIDENTIAL © Visual Bank inc. 撮影概要 27 ビル俯瞰図 車 道

    ・対面の歩道から撮影が理想 ビ ル ・往復撮影 ・進行方向への斜角撮影 車 道 車 道 ビ ル ※道路の幅によって ビルからの撮影距離が 変わっても問題ないか?
  16. © Visual Bank inc. AI開発を取り巻く課題 35 データホルダー データユーザー マルチメディア テキストメディア

    海外ストック エージェンシー その他データ 提供者 画像・動画・音声 テキスト 各種データ 画像・動画 AI開発事業者 生成AI LLM マルチモーダルAI 人物検知 姿勢検知 顔認識 AIカメラ セキュリティ 音声認識 感情認識 画像 テキスト 音声 動画 3D データホルダーと データを利用したい 現場が分断されている
  17. © Visual Bank inc. Qlean DatasetがAI開発を取り巻く課題を解決 36 データホルダー データユーザー マルチメディア

    テキストメディア 海外ストック エージェンシー その他データ 提供者 データ制作 画像 音声 テキスト 動画 画像・動画・音声 テキスト 各種データ 画像・動画 調達 市場ニーズから データレシピ拡充 営業・マーケティング データニーズから データレシピ拡充 40年のデータライブラリとしての 広範なネットワークを活用し、 多様なデータへのアクセスを実現 制作 ネットワーク スタジオ ネットワーク キャスティング ネットワーク 収集 ネットワーク 3D AI開発事業者 生成AI LLM マルチモーダルAI 人物検知 姿勢検知 顔認識 AIカメラ セキュリティ 音声認識 感情認識 画像 テキスト 音声 動画 3D
  18. 41