Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成AIの研究開発を事業につなげる データ、仕組み、コミュニケーション

生成AIの研究開発を事業につなげる データ、仕組み、コミュニケーション

Developers Summit 2024 Summer(2024年7月23日(火)-24日(水)開催)の登壇資料です。
https://event.shoeisha.jp/devsumi/20240723

トラック:https://event.shoeisha.jp/devsumi/20240723/session/5126
生成AIの研究開発を事業につなげるデータ、仕組み、コミュニケーション
LLMや画像生成AIの登場により、文章やコンテンツをAIで生成して活用することが一般的になっています。弊社Stability AIでは画像、動画、音楽、LLMを含めた多様な生成AIモデルをリリースしてきました。これらの生成AIモデルを開発するためにはGPUやアルゴリズムだけでなく、研究上の課題を定義し、大量のデータを用意し、効率化とコスト削減にも取り組む必要があります。しかし良い生成AIモデルを作れば事業で成功するわけではなく、ユーザに届けてマネタイズするプロダクトが必要になります。データ収集からモデル開発、プロダクト開発まで携わってきた経験から、生成AIの研究を事業につなげていくための取り組みを成功と失敗の両面で共有します。

shibuiwilliam

July 26, 2024
Tweet

More Decks by shibuiwilliam

Other Decks in Technology

Transcript

  1. 自己紹介 shibui yusuke • いろいろ → Stability AI Japan(いまここ) •

    MLOps & データ & バックエンド & インフラ & その他諸々エンジニア • 最近の趣味:GeoGuesser • Github: @shibuiwilliam • FB: yusuke.shibui • 本発表は私個人の見解であり、 所属組織を代表するものではありません。 cat : 0.55 dog: 0.45 human : 0.70 gorilla : 0.30 物体検知
  2. 技術評論社 Software & Designで MLOpsについて連載しました! • 2023年8月号  MLOpsの概要 • 2023年9月号 

    MLOpsのためのスキルセットとチーム構成 • 2023年10月号 方針策定とMLOpsのためのツール • 2023年11月号 MLOpsのための技術選定 • 2023年12月号 LLMのためのDevOps • 2024年1月号  MLOpsと評価 • 2024年2月号  推論システム(予定) • 2024年3月号  機械学習システムの引き継ぎ • 2024年4月号  LLMのデータエンジニアリング • 2024年5月号  機械学習の使い途と未来 MLOpsについてあまり他では取り上げられないテーマを 中心に記事を書きました!
  3. 毎年数回イノベーションが発生する世界 Machine learning Deep learning Generative AI Platform 2011 2012

    2013 2023 2022 2021 2020 2014 2015 2016 2017 2019 2018 BigQuery dbt Kubeflow AlexNet DCGAN TensorFlow DQN AlphaGo AlphaZero XGBoost LightGBM ONNX PyTorch Anaconda GoogleNet ResNet Kaggle SageMaker Keras Core ML MediaPipe TensorRT Nvidia K80 Jupyter Notebook Google Colab Word2Vec Vertex AI MLflow Spark CLIP BERT GPT-3 OpenAI Hidden debt paper Diffusion model HuggingFace AutoML Optuna Katib ChatGPT Snowflake Airflow Cycle GAN Style GAN Magenta VAE CatBoost Flax TFServing TorchServe Stable Diffusion Nvidia A100 TPU Transformer イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション イノベーション CodeX BQML 2024 Llama LoRA DeepSpeed GPT4 Gemini Nvidia H100 AnimateDiff イノベーション Copilot
  4. 生成AIの研究開発と事業 従来のAI:予測する 写真を撮る タイトル入力 説明入力 投稿する ねこ データ 推論 検索

    推薦 学習 投稿 データをもとにした予測する。 ロジックの一部に確率的な機能を組み込む。
  5. 事 業 的 成 功 技術的価値と事業 コミュニ ティ マーケ ティング

    PR 評判 デザ イン UI デー タ 人事 インフ ラ 生成 AI ソフト ウェア チー ム 障害 対応 設計 運用 法律 経営 課金 モデル 営業 ライセン ス 人 タ イ ミ ン グ 運
  6. 正しいデータ、使えるデータ、使って良いデータ、すぐ手に入るデータ • 177,180: HuggingFaceに登録されているデータセット数。 • 32,670: そのうち、MIT、Apache、CC等のライセンスで商用利用可能な数(※)。 • HuggingFaceで提供されているデータセットがデータ全体を提供しているとは限らない。 ※

    2024/07/13調べ。数え方によって上下します。 3Dモデルの データセット 動画 HuggingFace CC-BY-SA 4.0 コンテンツのライセンスは それぞれで規定 動画から3Dモデルとキャプションを用意 しているデータセットの場合、 3Dモデルと キャプションはデータセットのライセンス が適用されるが、元動画は元動画のラ イセンスが適用。 例 画像 キャプション
  7. AIに自動化されないデータのタスク データセット検索 データ確認 ライセンス・NSFW チェック データ取得 データ生成・拡張 データ保管 データ利用の管理 単にデータを収集して管理するだけの仕事だが、

    実態は多様なスキルが要求される。 データのモダリティによって難易度も異なる。 • テキスト:Common CrawlとHugging Faceが主なデータソース。データ セッ トに含まれているテキストが著作権や NSFWの課題を クリアしているかは別問題。 • 画像:各種データセットが公開されているが、データセットに 含まれている画像が著作権や NSFWの課題をクリアしているかは 別問題。 • 動画:動画サイトでCC-BYライセンスで公開されている動画が 主なデータソース。メタデータが用意されていないと選定や 有効活用が難しい。大容量になることが多い。 • プログラム:オープンソースになっているレポジトリが主な データソース。品質や稼働可否を評価することが難しい。 • 3D:データの提供方法に統一性がなく、データセットごとに 異なる取得手順が必要。動画よりも巨大になることが多い。
  8. • 仕組み化:一定のルールに従って自動的に処理するシステムを作る。 ◦ 例:データを整理し管理するパイプラインやデータ基盤。 • 生成AIのデータセットは要件の変化、評価のコスト、元データの変更等の不確実性により、 仕組み化が難しい。 仕組み化、不確実性、マイグレーション 日本語LLMの データセットが

    ほしい Common Crawlや HuggingFaceから 取得 文章は大量に 得られたけど Q&Aが足りない 品質要件や クレンジングの ロジック 収集したデータの ライセンスがGPLに変更 クレンジング、評 価、 フィルター データセット化 仕組み化の課題: 要件やデータの変化が激しく、 多様なモダリティをサポートする システムが必要。
  9. メタデータと抽象化 一般的に共通する メタデータ ライセンス データソース 容量 提供者 用途 取得日 画像

    - 被写体 - 場所 - 拡張子 - キャプション 音声 - 言語 - 話者 - 歌詞・曲の著作権 - サンプリングレート テキスト - 言語 - 著者 - テーマ - ですます調 作成日 動画 - 言語 - 文字起こし - 解像度 - 音声の有無 3D - 提供フォーマット - 動画有無 - キャプション - 対象物 要件や技術の変化によってメタデータも変わっていく。
  10. • 完璧な仕組み化が難しいからこそ、マイグレーションに慣れたほうが良い。 仕組み化、不確実性、マイグレーション 日本語LLMの データセットが ほしい Common Crawlや HuggingFaceから 取得

    文章は大量に 得られたけど Q&Aが足りない 品質要件や クレンジングの ロジック 収集したデータの ライセンスがGPLに変更 クレンジング、評 価、 フィルター データセット化 フォーマット変換 メタデータ化 ライセンス 再確認 マイグレーション前 提で作る 削除
  11. 数十億件、 PBサイズの非構造化データから始まる生成 AI開発 データセットを用 意する 実験、学習する APIやアプリに 組み込む ビジネス化する ここが遅いと

    ここが停滞し これが作れず リリースできない データ ダウンローダ GPUとインフラ 事業計画 データ 検査 巨大なストレージ データ パイプ ライン DWHと 検索 ライセンス チェック 認識 分類 GPU! 高速なデータローダ デザイン UI/UX バック エンド DB 課金 ユーザ 管理 監視 運用 営業 PR マーケティ ング BizDev パートナー シップ 売上 コスト 利益 継続率 競合 アルゴリズム
  12. 数十億件、 PBサイズの非構造化データから始まる生成 AI開発 データセットを用 意する 実験、学習する APIやアプリに 組み込む ビジネス化する ここが遅いと

    ここが停滞し これが作れず リリースできない データ ダウンローダ GPUとインフラ 事業計画 データ 検査 巨大なストレージ データ パイプ ライン DWHと 検索 ライセンス チェック 認識 分類 GPU! 高速なデータローダ デザイン UI/UX バック エンド DB 課金 ユーザ 管理 監視 運用 営業 PR マーケティ ング BizDev パートナー シップ 売上 コスト 利益 継続率 競合 アルゴリズム 短時間で成果を 出すよりも、 継続的な活動が 重要 ビジネスモデル、 アーキテクチャや エンジニア次第 必ず時間を要する 時間を要するが、 GPUや実験計画 次第では 短時間で可能
  13. • 仕組み化することで所与の処理は自動化し、アウトプットまで形式に従って記録できるが、 サポートされていない処理とアウトプットはルールに従わない異常値になることが多い。 仕組み化の利点と難点 サポートされていない 実験的な処理。 マニュアル処理はドキュメントされていないことが多く、 作業者が去ったら失われる作業になる。 unknown unknown

    日本語LLMを 学習する Common Crawlや HuggingFaceから 取得 文章は大量に 得られたけど Q&Aが足りない 品質要件や クレンジングの ロジック クレンジング評 価 フィルター データセット LLMを使って 文章生成 事前 学習 SFT 評価 ブレンディング 記録 データリネージ
  14. 事例:生成 AIを活用するプロダクト開発 A dramatic landscape image of a rugged mountain

    range at sunset. The mountains are sharp and imposing, with jagged peaks covered in snow. A winding river cuts through the valley below, reflecting the vibrant colors of the sky. The sky is ablaze with hues of orange, pink, and purple, casting a majestic glow over the entire scene. In the foreground, there are tall pine trees and rocky outcrops, adding to the wild and untamed feel of the landscape.
  15. R&D エンジニア ビジネス ウ ォ | ル 社 内 外

    ユーザ ウ ォ | ル 知 名 度 すごい モデル 作った! カチャ カチャ カチャ どんどん やってこ う! プロンプト書 くの めんどう かわいい猫 できた! 前例のない技術領域の事業化は文化も型もないところから始まる。 ウ ォ | ル 立 場 ウ ォ | ル 時 差 研究開発を事業につなげるコミュニケーションの課題
  16. • ルールや文化を作り、提案し、守らせる仕組みを作る。 • 最初の一人になることが重要。 • 経験上、「0 -> 1」は難しいが、「0 -> 1を零

    -> 壱にする」のはもっと難しい。 「最初に右側のナプキンを取る」 Innovation distinguishes between a leader and a follower. Steve Jobs
  17. (うまくいけば) いつのまにか 誰かがテンプレート化 してくれてる 帰納的に取り入れていく No document Random structure Unknown

    unknown 知見を ドキュメントにする README.md Notion Code comment S3 memo Slack とにかく書く
  18. 機能と構造 • コミュニケーションを構造化し、共通認識と要求を分ける。 • 機能 ◦ 各所でREADMEを書く。Whyを明確にする。 ◦ 変化が激しい業界だからこそ、物事は簡単に Unknown

    unknownになる。これを防ぐ。 • 構造 ◦ デザインパターンも構造化コミュニケーションの一種。 ◦ DIパターンで作ると共通で認識していれば、 構造に沿って開発できる。 ◦ 複雑でない構造化を続けることで仕組みが根付く。