Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DVCによるデータバージョン管理
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Ringa_hyj
December 31, 2024
Technology
380
0
Share
DVCによるデータバージョン管理
Ringa_hyj
December 31, 2024
More Decks by Ringa_hyj
See All by Ringa_hyj
deeplakeによる大規模データのバージョン管理と深層学習フレームワークとの接続
ringa_hyj
0
110
Hydraを使った設定ファイル管理とoptunaプラグインでのパラメータ探索
ringa_hyj
0
220
ClearMLで行うAIプロジェクトの管理(レポート,最適化,再現,デプロイ,オーケストレーション)
ringa_hyj
0
240
Catching up with the tidymodels.[Japan.R 2021 LT]
ringa_hyj
3
880
多次元尺度法MDS
ringa_hyj
0
360
因子分析(仮)
ringa_hyj
0
200
階層、非階層クラスタリング
ringa_hyj
0
160
tidymodels紹介「モデリング過程料理で表現できる説」
ringa_hyj
0
680
深層学習をつかった画像スタイル変換の話と今までの歴史
ringa_hyj
0
490
Other Decks in Technology
See All in Technology
ラズパイ & Picoで入門:Zephyr(RTOS)の環境構築からビルドまでの紹介
iotengineer22
0
160
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.4k
[続・営業向け 誰でも話せるOCI セールストーク] セールストーク総集編(2026年5月15日開催)
oracle4engineer
PRO
1
110
PdM・Eng・QAで進めるAI駆動開発の現在地/aidd-with-pdm-eng-qa
shota_kusaba
0
260
マンション備え付けのネットワークとLTE回線を組み合わせた ネットワークの安定化の考案
harutiro
1
140
アプリブロック機能のつくりかたと、AIとHTMLの不合理な相性の良さについて
kumamotone
1
270
R&D 祭 2024 アニメエフェクト作成の効率化
olmdrd
PRO
0
110
既存プロダクトQAから新規プロダクトQAへ
ryotakahashi
0
170
自作エディターをOSSにして分かった、一人に刺さる開発が世界を動かす理由
shinyasaita
0
150
AsyncStreamでマルチブロードキャストを実装する
1mash0
1
180
Python開発環境にハーネス適用を検討する
yuuka51
0
230
Terragrunt x Snowflake + dbt で作るマルチテナントなデータ基盤構築プラットフォーム
gak_t12
0
510
Featured
See All Featured
WCS-LA-2024
lcolladotor
0
590
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
520
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
1.1k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.5k
Exploring anti-patterns in Rails
aemeredith
3
360
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
290
Information Architects: The Missing Link in Design Systems
soysaucechin
0
930
The Illustrated Children's Guide to Kubernetes
chrisshort
51
52k
For a Future-Friendly Web
brad_frost
183
10k
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
370
Marketing to machines
jonoalderson
1
5.3k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Transcript
DVCの目的は・・・ 機械学習プロジェクトの再現可能性(reproducible)の確保 こんな経験はありませんか? • 過去に自分 or 他人が取り組んだ機械学習プロジェクトを再実行することになった • 実行したがナゼか当時の報告書の結果と一致しない ※原因はデータ・コード・パラメタに変更が発生したが、変更が残っていない等
紹介 1/5 はじめに
紹介 2/5 現状 • コードはgitで管理できるが、大規模なデータセットはgitでは管理が難しい(容量の制限) ➢ コードはgitで管理、データセットはローカルorクラウドストレージに保存 • データとコードの対応をバージョン管理する難しさ(ドキュメント作成の難しさ) ➢
どのコードでどのデータを使用したか、記録はドキュメント作成者の努力に依存する • チーム間でのデータ共有の難しさ(統一された保存先がない) ➢ データの保存場所だけでなく、実行フォルダへの配置方法などをドキュメントや口頭 で詳細に説明する • コード・パラメタ・データを変更した場合の性能比較が困難(結果ファイルの管理が大変) ➢ 変更の履歴、結果の比較をドキュメントとして保存 ➢ 結果ファイルをストレージへ保存 ➢ 手順に従ったとき、結果が一致するか目視でチェック 上記のようにコードとデータとそのバージョン管理にミスが発生す る状況ではプロジェクトの再現性が低下してしまいます 現状の解決策
DVCはGitと連携して動作する(特にデータ管理の)補完的なツールと してプロジェクトの実験再現性を確保するように設計されています 解決策 • 大きなデータファイルはGitの外で管理 • データやコード、モデルの重みなどに発生した差異をmd5ハッシュを使い検知 • dvc.yamlや.dvcなどのメタファイルのみをGitで追跡 •
Gitライクなコマンドでデータのバージョンを管理(add, checkout, pushなど) • 実データはキャッシュやストレージ(AWS S3, Google Cloud Storage, Azure Blob)に保 存 • データ処理から学習、評価までのパイプラインを定義可能 • コード・パラメタ・データの組み合わせごとの評価指標をコミット履歴やブランチをつか い比較することが可能 紹介 3/5 DVCによる解決策
git hub DVC remote storage git ローカルリポジトリ DVC cache ソースコード
DVCメタファイル ソースコード DVCメタファイル 実データ (データセット、モデル) 実データ (md5ハッシュによる重複削除) リモート環境 ローカル環境 git push git pull dvc push dvc pull dvc add dvc commit dvc checkout 紹介 4/5 DVCのデータ管理イメージ
前処理 pre.py 特徴量作成 feat.py 学習 train.py 評価 eval.py 実行パイプライン dvc.yaml
パラメタ params.yaml pre.py feat.py train.py eval.py 中間生成物 (特徴量、モデル) 実験結果 (metrics.json、plot.png) 紹介 5/5 • 依存ファイルの変化をmd5ハッシュで検知 • dvc reproコマンドでパイプラインに定義したスクリプトを順番に実行 • 結果の生成、比較を半自動化 パイプラインによる実行過程の再現