Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI開発をスケールさせるデータ中心の仕組みづくり

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

 AI開発をスケールさせるデータ中心の仕組みづくり

「実践的パフォーマンスエンジニアリングによるAI高速化×Data-centric AI入門セミナー」での発表資料です

Avatar for Kazuyuki Miyazawa

Kazuyuki Miyazawa

January 23, 2026
Tweet

More Decks by Kazuyuki Miyazawa

Other Decks in Technology

Transcript

  1. 自己紹介 2 @kzykmyzw 宮澤 一之 GOドライブ株式会社 AI技術開発1部 部長 経歴 April

    2020 - July 2025 グループマネージャ@GO April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 https://gihyo.jp/book/2025/978-4-297-14663-4 Data-Centric AI コミュニティを 運営し定期的に勉強会を開催中
  2. Data-centric AIとは 3 データ モデル (コード) 開発者 データ モデル (コード)

    開発者 Model-centric AI Data-centric AI データを固定し、モデルを改善 モデルを固定し、データを改善
  3. Tesla Autonomy Day (2019) 5 • 2019年のイベントでテスラが データエンジンというデータ中心 のAI開発の仕組みを紹介 •

    膨大なテスラ車のそれぞれがプ ローブとなり、車両に搭載された AIが苦手な状況に遭遇した際の データを自動的にアップロード • アップロードされたデータで再学 習(苦手を克服)したAIを再び車 両にデプロイし、同じサイクルを 繰り返す • サイクルを回すほどデータセット 品質とAI性能がスケールしていく https://www.youtube.com/live/Ucp0TTmvqOE?si=NvTTu4y6iGKoR3p3&t=7780 Tesla Autonomy Day, 2019. [YouTube]
  4. Data Flywheel 6 • データエンジンよりも上位の概念 として、データフライホイールと いう言葉も使われている • データフライホイールとは、やりとりやプ ロセスから収集したデータをAIモデルの継

    続的な改良に利用するフィードバックルー プのことであり、これにより、より良い成 果とより価値の高いデータを生成すること ができます。  (NVIDIA) https://www.nvidia.com/ja-jp/glossary/data-flywheel/ • データフライホイールとは、ビジネスリー ダーやテクノロジーリーダー向けの包括的 また付加的なアプローチであり、組織が データから最大限の価値を引き出すことを 可能にします。 (AWS) https://pages.awscloud.com/data-flywheel-jp.html https://www.nvidia.com/ja-jp/glossary/data-flywheel/
  5. Signal-to-noise データセットのサイズよりもSN比を意識して有益なデータを賢く集める 10 デプロイ モニタリング データ収集 キュレーション アノテーション 再学習 評価

    実世界/本番環境 • 大きなデータセットは何をするに もコストが高く、SN比が低いとプ ロセス全体に無駄が出るため、早 い段階で有益なデータだけに絞り SN比を高める(シフトレフト) • 有益なデータの条件を洗い出し、 それに合致するデータだけを集め られるような仕組みを考える • 収集後のさらなるデータ選定 (キュレーション)においては、 データ構造やツールの工夫が効率 を大きく左右する
  6. 有益なデータ = モデル性能が不十分となる入力データ 11 入力 出力 モデル • ある属性に対する学習データ量が足りない など、モデル性能が不十分となる入力デー

    タの属性がわかっている • モデルへの入力やシステムの周辺をモニタ リングし、対象属性のデータが入力された ことを検知してデータを収集する • どのような属性のデータに対してモデル性 能が不十分となるかはわからないが、 未 知の課題に対処したい • モデルからの出力やシステム全体の挙動を モニタリングし、モデル性能が不十分だっ たことを検知してデータを収集する
  7. 特定属性のデータを検知するモデルをデプロイ 12 入力 出力 モデル レア条件下の標識の画像収集(テスラ) • 街路樹による遮蔽、特定の補助標識との組 み合わせなど、ランダムな収集では学習 データが手に入りづらい標識が存在

    • 特定の条件の標識だけを検出するモデルを 開発して車両にデプロイし、そのモデルが 何かを検出したことをトリガとしてデータ を収集 • トリガとなるモデルは「シャドウモード」 で稼働し、本来の車両の動作やユーザの操 作には影響しない • トリガとなるモデルは最初に手元にある少 ないデータで作る必要があり初期の精度は 低いと思われるが、一台あたりの発見率が 低くても膨大な車両数でカバーできる https://youtu.be/g2R2T631x7k?si=AvP_KHWRcFlJuZ-a&t=625 A. Karpathy, CVPR Workshop on Scalability in Autonomous Driving, 2020. [YouTube]
  8. 外部ソースを使ってデータ収集効率を高める 13 入力 出力 モデル レアクラス標識の画像収集(GOドライブ) • 標識の設置頻度は標識のクラスによって大 きく異なり、設置頻度が低く学習データが 手に入りづらいレアな標識が存在

    • 地図で管理されている標識の緯度経度を外 部ソースとして利用し、GPS情報から車両 が対象クラスの標識周辺を走行したことを 検知して車載カメラの動画をアップロード • アップロードされた動画からさらに対象ク ラスの標識が写っているであろうフレーム だけを抽出してアノテータに提示 • ランダムに動画を収集する場合と比べてア ノテーション効率が10倍に改善 GPS 地図 アノテータ クラウド 動画 GPS軌跡
  9. モデル性能が低いことで発生する事象を検知 14 入力 出力 モデル レーダー廃止のための学習データ収集(テスラ) • レーダーは前方車両の距離と速度を正確に 計測できるが、ノイズや垂直分解能の低さ が課題となるため、テスラではレーダーを

    廃止してカメラによる画像認識に置き換え • 画像認識モデルの開発にあたり、モデル性 能が低下する状況のデータを収集するた め、モデル性能が不十分な場合に何が起こ るかをトリガ条件として洗い出し、トリガ 発動時にデータを収集 • カメラとレーダーの結果の不整合など200 種類以上のトリガ条件によって100万本の 動画が収集され、4ヶ月で画像認識モデル の開発を完了 ❏ radar vision mismatch ❏ bounding box jitter ❏ detection flicker ❏ detection in Main camera but not Narrow camera ❏ driver didn't break but tracker thinks CIPV is rapidly decelerating ❏ break lights are detected as on but acceleration is positive ❏ rarely high/low velocity or acceleration ❏ CIPV cuts in / cuts out ❏ CIPV has high lateral velocity ❏ bounding-box derived depth disagrees with network-predicted depth ❏ rarely sloping road surface (hillcrest or dip) ❏ rarely sharp turning road surface ❏ driver breaks sharply on the highway ❏ stop and go traffic ❏ Main or Narrow or both cameras appear to be blinded ❏ driver enters/exits tunnel ❏ objects on the roof (e.g. canoes) ❏ driver brakes harshly and there is a VRU close to us but there is no intersection データ収集のためのトリガの例 A. Karpathy, CVPR Workshop on Autonomous Driving, 2021. [YouTube]
  10. 15 入力 出力 モデル モデル出力へのユーザの反応をモニタリング RLHFのためのチャットからのユーザ嗜好収集(ChatGPTのUIを例に*) • ユーザからの明示的な フィードバック •

    ユーザの嗜好が直接的 に反映される反面、 データ量は少ない • LLMの回答をユーザが採用したか、 採用の際に編集したかなど、ユーザ 行動による暗黙的なフィードバック • 大量収集が可能だがノイジーなため 統計処理やキュレーションが必須 • フォローアップ質問や A/Bテストなどの能動的 なフィードバック • ユーザからのフィード バックを待つよりも データ量は増やせるが やりすぎるとUXが悪化 https://www.reddit.com/r/ChatGPT/comments/1gu3i1t/openai_abtesting_some_reasoning_model/ 参考:Real-World LLM Testing: Role of User Feedback * OpenAIが実際に本スライドで紹介するような方法でフィードバックを集め、学習に利用しているかは未確認です
  11. コラム 収集データのバイアスに注意しよう 16 • 発生頻度が低いレアな正例を検出する モデルを開発するため、正例を効率的 に集められるようにデータ収集を工夫 してデータセットを構築したとする • このデータセットでモデルを学習、評 価する場合、正例の頻度が現実世界と

    は大きく異なる(レア事象ではなく なっている)ことを忘れがち • 例えば正例と負例が1:1のデータセッ トで90%のPrecisionで正例を検出で きるモデルができたとしても、現実世 界の割合が1:9なら運用時のPrecision は50%になってしまう • 特に検証用データと現実世界の分布の 乖離に注意を払う必要がある         検出対象であるレアな正例 が効率的に手に入るように データ収集を工夫💪 正例(検出対象) 負例 分布が乖離 学習 検証
  12. AIによるデータ収集/キュレーション 18 オリジナルの52kのInstruction Tuning データセットで学習 (Alpaca-52k) 品質スコアの高い9kのデータ のみで学習 (AlpaGasus-9k) vs.

    ChatGPTを使って 各データに対して 品質スコア (0~5) を付与 AlpaGasus [ICLR’24] • LLMのInstruction Tuning用データセットをChatGPTが付与した品質スコアによってキュレーション • 元の52kから抽出した高品質な9k (< 20%) だけで学習したLLMは52kで学習したLLMの性能を上回る L. Chen et al., “AlpaGasus: Training a Better Alpaca with Fewer Data,” ICLR, 2024. [paper]
  13. AIによるデータ生成 19 Demystifying Synthetic Data in LLM Pre-training [EMNLP’25] •

    Instruction Tuningやアラインメントなどの事後学習においてLLMにデータを生成させることの有効 性は広く知られているが、事前学習においては統一見解がない • 1000種類以上のLLMに対して10万GPU時間以上のリソースをかけて実験を行い、事前学習における LLM生成データの効果を体系的に調査 自然データとの混 合比率が重要 生成データ単体での利 用は効果がないが、学 習データ全体のうち約 30%を生成データとす ると収束スピードが 5~10倍に高速化 ゼロからの生成よ りも言い換え ゼロから生成させた データでの学習は性能 低下(モデル崩壊)を 引き起こすが、既存テ キストの「言い換え」 は性能向上に寄与 大規模なモデルは 必須ではない データ生成に用いる LLMのパラメータ数を 8Bから70Bに増やして も性能向上は見られな い(3Bと8Bでは8Bの 方が効果が高い) 多様性と品質のト レードオフ 生成データにより多様 性やテストデータとの 類似性は低下するが、 性能が向上するのは多 様性と品質にトレード オフがあるため? F. Kang et al., “Demystifying Synthetic Data in LLM Pre-training: A Systematic Study of Scaling Laws, Benefits, and Pitfalls,” EMNLP, 2025. [paper]
  14. Speed 人への依存を減らし可能な限り自動化することでプロセスの流れを早める 21 デプロイ モニタリング データ収集 キュレーション アノテーション 再学習 評価

    実世界/本番環境 • データエンジンを構成するプロセ スの中で最もボトルネックになり やすいのがアノテーション • 完全に人に依存したアノテーショ ンは純粋に時間がかかる上にス ケールさせづらい • 開発中のモデルを積極的に活用す ることに加え、加速度的に進歩し ているLLMや基盤モデルを利用し て可能な限り自動化する
  15. アノテーションの自動化に活用できるもの 22 開発中モデル 大規模モデル 外部知識・センサデータ • 開発対象となるモデルの出力をラベルとして使う • ドメインが一致するため使いやすいが、開発初期はモデル性能が低い •

    開発対象とは異なる大規模モデルの出力や複数モデルのアンサンブル結 果をラベルとして使う • 運用に比べてコスト制約が緩いアノテーションでは使えることが多い • 公開モデルとドメインが一致すれば初期から高品質なラベルが入手可能 • 運用段階では手に入らないが、アノテーション段階では利用可能な外部 知識やセンサデータからラベルを得る • 時系列データなら推論時刻よりも先(未来)の情報を使うことも可能
  16. 開発中モデルの積極活用によるスケーリング 23 SAMシリーズ (Meta) • 画像セグメンテーションモデルSAMのためのアノテー ションでは、開発中のモデルが生成したラベルを人間 が修正するという流れを複数の段階に分け、段階を経 るごとに人間の割合を減らして最終的に99%以上のラ ベルをモデルが自動生成

    • 1100万枚の画像と11億個のラベルを持つ人手のみで はほぼ不可能なスケールのデータセットを構築 • SAM2では対象を静止画から動画に拡張し、5万本の 動画の各フレームにラベルを付与 • 3次元に拡張したSAM3Dではラベルとなる3D形状の 作成という困難な作業をスケールさせるため、まず一 般のアノテータがモデルが生成した複数の候補形状の 中から最良のものを選び、うまく候補が生成できない 形状だけを3Dアーティストに任せることで100万枚の 画像に対して300万個以上の3D形状を付与 SAM2による動画中のオブジェクトセグメンテーション SAM3Dによる静止画からの3Dモデル生成 A. Kirillov et al., “Segment Anything,” arXiv, 2023. [paper] N. Ravi et al., “SAM 2: Segment Anything in Images and Videos,” arXiv, 2024. [paper] SAM 3D Team, “SAM 3D: 3Dfy Anything in Images,” arXiv, 2025. [paper] https://ai.meta.com/sam2/ https://github.com/facebookresearch/sam-3d-objects
  17. LLMがあれば人間によるラベルは不要か? 24 Keeping Humans in the Loop [ICWSM’25] • 11個のテキストデータセットから27個の二値分類タ

    スクを定義し、各タスクで人間によるアノテーション とLLM (GPT-4) によるアノテーションを比較 • LLMによるアノテーション精度の中央値はAccuracy で0.85、F1で0.707と高精度だが、同じデータセット であってもタスクが異なるとF1が0.811から0.259ま で低下(人間のラベルと乖離)するケースが存在 人間によるラベルに対するLLMによるラベルの精度 • LLMによるアノテーショ ンの自動化は大いに有望 だが、人間によるラベル との比較やその結果に基 づいたプロンプト最適化 など、人間参加型のワー クフローを構築すべき 同じデータセットに 由来するタスクでも 精度が大きく変動 N. Pangakis et al., “Keeping Humans in the Loop: Human-Centered Automated Annotation with Generative AI,” ICWSM, 2025. [paper]
  18. オフラインで構築した情報の活用 25 多視点動画へのアノテーション効率化(テスラ) • テスラの車両には複数のカメラが 搭載されており、各カメラから得 られた動画へのアノテーションは 膨大な工数を要する(カメラ数 x フレーム数)

    • ナイーブな各フレームへのアノ テーションから、複数カメラの映 像で再構成した3次元空間へのア ノテーションに移行 • 3次元空間でアノテーションした 結果は各カメラの各フレームに自 動的に投影できるため、1度のア ノテーションで複数カメラ、複数 フレームのアノテーションが完結 → 効率が100倍に https://www.youtube.com/live/j0z4FweCy4M?si=lbQ30Yolu2xcLnN6&t=5218 Tesla AI Day, 2021. [YouTube]
  19. コラム 推測するな、計測せよ 26 • アノテーションへのAI活用はデータエ ンジンのSpeedの改善施策としてわか りやすいが、既存のアノテーションが 本当にボトルネックなのか、そうだと したら作業のどこをAI化すると効果的 なのかをまずは計測するべき •

    例えばAIがアノテーションした結果を アノテータが修正するような場合、ゼ ロからアノテーションすることに習熟 しており高速に作業ができるアノテー タにとっては、AIの結果を修正する作 業の方が逆に手間になることもある • 事前の計測に加えて、施策の結果とし て本当にSpeedが向上しているかどう かを計測することも重要 改善?
  20. Simplicity 余計な手間や待ちをなくしてエンジン全体が容易に回る仕組みを作る 27 デプロイ モニタリング データ収集 キュレーション アノテーション 再学習 評価

    実世界/本番環境 • データエンジンを構成するプロセ ス全体にわたって無駄を取り除き シンプルな仕組みを作る • 作業に関することだけでなく、部 署間の連携改善や暗黙知の形式知 化なども重要な要素 • 泥臭く生データを見ることや、時 間のかかる組織作りなども最終的 には手戻りなどの無駄を減らすこ とにつながる
  21. データ品質の管理プロセスの体系化 28 ACP Data Quality(LINEヤフー) • 独自のAI開発環境ACPにおいて、ACP Data Qualityと呼ばれるデータ品質管理システムを提供 •

    中核機能であるデータ品質モデル言語DQMLは、データ品質に対する要件をコードで記述することで データ品質の管理プロセスを体系化 (Data Quality as Code) • データサイエンティストの負荷やデータ品質管理のコストの低減を実現 古川, “データ品質をコード化!LINEヤフーのMLOpsを最適化するACP Data Qualityの紹介,” 第7回 Data-Centric AI勉強会, 2024. [slides]