Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
deeplakeによる大規模データのバージョン管理と深層学習フレームワークとの接続
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Ringa_hyj
December 31, 2024
Technology
110
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
deeplakeによる大規模データのバージョン管理と深層学習フレームワークとの接続
Ringa_hyj
December 31, 2024
More Decks by Ringa_hyj
See All by Ringa_hyj
DVCによるデータバージョン管理
ringa_hyj
0
400
Hydraを使った設定ファイル管理とoptunaプラグインでのパラメータ探索
ringa_hyj
0
230
ClearMLで行うAIプロジェクトの管理(レポート,最適化,再現,デプロイ,オーケストレーション)
ringa_hyj
0
250
Catching up with the tidymodels.[Japan.R 2021 LT]
ringa_hyj
3
880
多次元尺度法MDS
ringa_hyj
0
380
因子分析(仮)
ringa_hyj
0
210
階層、非階層クラスタリング
ringa_hyj
0
160
tidymodels紹介「モデリング過程料理で表現できる説」
ringa_hyj
0
680
深層学習をつかった画像スタイル変換の話と今までの歴史
ringa_hyj
0
500
Other Decks in Technology
See All in Technology
失敗を資産に変えるClaude Code
shinyasaita
0
720
10年間のブログ発信を振り返って見えたWebアプリケーションエンジニアとしての軌跡
stefafafan
0
170
[AWS Summit Japan 2026]迷っているあなたへ_小さな一歩が、やがて自分を助けてくれる
sh_fk2
1
170
2026TECHFRESH畢業分享會 - 原生還是跨平台? App 開發踩坑實錄
line_developers_tw
PRO
0
1.3k
iAEONの段階的リアーキテクト戦略 / iAEON's_Gradual_Re-architecture_Strategy
aeonpeople
0
230
200個のGitHubリポジトリを横断調査したかった
icck
0
140
Agile and AI Redmine Japan 2026
hiranabe
3
320
生成 AI 実践ガイド (概略版) AIガバナンス編
asei
0
130
【NRUG vol.18】KubernetesにおけるNew Relicデータ取得量削減の考え方
nrug_member
0
170
AWS Security Hub CSPMの成功・失敗体験
cmusudakeisuke
0
270
ロボティクスの技術 / Robotics Technology
ks91
PRO
0
110
SONiC Scale-Up Working Group から探る Scale-UpやUltraEthernet機能の実装方法
ebiken
PRO
2
420
Featured
See All Featured
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
270
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
2
580
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
160
Odyssey Design
rkendrick25
PRO
2
700
The Pragmatic Product Professional
lauravandoore
37
7.3k
How to Ace a Technical Interview
jacobian
281
24k
KATA
mclloyd
PRO
35
15k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.8k
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
Raft: Consensus for Rubyists
vanstee
141
7.5k
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
160
エンジニアに許された特別な時間の終わり
watany
107
250k
Transcript
紹介 1/3 deeplakeの目的は・・・ AIプロジェクトを効率化するデータ管理プラットフォーム こんな経験はありませんか? • 大規模な動画/画像/テキストデータセットのバージョン管理に時間を費やしている • データセットをローカルにダウンロードする必要があり、開発着手まで時間が必要 •
チーム間で共有する際、フォーマットの統一や整合性の確保に手間がかかる • 異なるMLフレームワーク間でデータセットを移行する際に変換作業が必要になる はじめに
紹介 2/3 • Local • Deep Lake Storage • AWS
S3 • Microsoft Azure • Google Cloud import deeplake deeplake.ingest_classification() deeplake.ingest_coco() deeplake.ingest_yolo() deeplake.ingest_kaggle() deeplake.ingest_dataframe() deeplake.ingest_huggingface() import deeplake ds = deeplake.empty('./dataset_local') ds.create_tensor('images', htype='image’, sample_compression='jpeg') ds.append(....) ds.commit() import deeplake ds = deeplake.deepcopy(src_dataset_path, dest_dataset_path) ds = deeplake.load('./my_dataset_path') • 定型フォーマットを関数で読み込むことが可能 • 作成したデータは様々な保存先に接続することが可能 定型フォーマット データ作成 up/down load データセット作成
紹介 3/3 • 公開されている様々なデータセットを簡単に利用可能 • pytorch, tensorflowのデータセットとして読み込み、即座に訓練が可能 • 大規模なデータをすべて読み込むのでなく部分的に読み込み訓練に使用するこ とが可能なためメモリを圧迫しない
※LLMフレームワーク(LlamaIndex, LangChain)や物体検知(MMDetection)等のオープンソースパッケージとのシームレスな接続も可能 import deeplake ds = deeplake.deepcopy(src_dataset_path, dest_dataset_path) ds = deeplake.load('./my_dataset_path') train_loader = ds.pytorch(num_workers = 8, transform = transform, batch_size = 32, tensors=['images', 'labels'], shuffle = True) train_loader = ds.tensorflow(...) 深層学習フレームワークとの接続