Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
deeplakeによる大規模データのバージョン管理と深層学習フレームワークとの接続
Search
Ringa_hyj
December 31, 2024
Technology
110
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
deeplakeによる大規模データのバージョン管理と深層学習フレームワークとの接続
Ringa_hyj
December 31, 2024
More Decks by Ringa_hyj
See All by Ringa_hyj
DVCによるデータバージョン管理
ringa_hyj
0
400
Hydraを使った設定ファイル管理とoptunaプラグインでのパラメータ探索
ringa_hyj
0
230
ClearMLで行うAIプロジェクトの管理(レポート,最適化,再現,デプロイ,オーケストレーション)
ringa_hyj
0
250
Catching up with the tidymodels.[Japan.R 2021 LT]
ringa_hyj
3
880
多次元尺度法MDS
ringa_hyj
0
380
因子分析(仮)
ringa_hyj
0
210
階層、非階層クラスタリング
ringa_hyj
0
160
tidymodels紹介「モデリング過程料理で表現できる説」
ringa_hyj
0
680
深層学習をつかった画像スタイル変換の話と今までの歴史
ringa_hyj
0
500
Other Decks in Technology
See All in Technology
AIはどのように 組織のアジリティを変えるのか?
junki
4
1k
ザ・データベース、MySQL ~ OSC 2026 Sendai ~
sakaik
0
140
Kubernetesにおける学習基盤とLLMOpsの概要
ry
1
320
2026TECHFRESH畢業分享會 - Lightning Talk - 資料也要 CI/CD? 用 Airbyte 自動化資料同步
line_developers_tw
PRO
0
1.3k
AI駆動開発を通して感じた、 AI時代のデザイナーの役割変化
whisaiyo
4
2.3k
「勝手に広まる」人気 AI エージェントを爆速で作ろう!(AWS Summit Japan 2026講演資料)
minorun365
PRO
9
2k
現地で盛り上がった WWDC26 Keynote
zozotech
PRO
1
270
OTel × Datadog で 「AI活用」を計測し、改善に繋げる
shihochan
2
430
SONiCのLinuxベースを活かしたZabbix監視
sonic
0
230
LayerXにおけるセキュリティ管理の現在地と次の一手
tosho
0
250
2026TECHFRESH畢業分享會 - 葬送的通靈師:化系統與用戶雜訊成行動訊號
line_developers_tw
PRO
0
1.3k
人材育成分科会.pdf
_awache
4
300
Featured
See All Featured
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
950
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
201
75k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
The Language of Interfaces
destraynor
162
27k
The Curse of the Amulet
leimatthew05
1
13k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.3k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
GraphQLとの向き合い方2022年版
quramy
50
15k
Technical Leadership for Architectural Decision Making
baasie
3
420
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.3k
Practical Orchestrator
shlominoach
191
11k
Transcript
紹介 1/3 deeplakeの目的は・・・ AIプロジェクトを効率化するデータ管理プラットフォーム こんな経験はありませんか? • 大規模な動画/画像/テキストデータセットのバージョン管理に時間を費やしている • データセットをローカルにダウンロードする必要があり、開発着手まで時間が必要 •
チーム間で共有する際、フォーマットの統一や整合性の確保に手間がかかる • 異なるMLフレームワーク間でデータセットを移行する際に変換作業が必要になる はじめに
紹介 2/3 • Local • Deep Lake Storage • AWS
S3 • Microsoft Azure • Google Cloud import deeplake deeplake.ingest_classification() deeplake.ingest_coco() deeplake.ingest_yolo() deeplake.ingest_kaggle() deeplake.ingest_dataframe() deeplake.ingest_huggingface() import deeplake ds = deeplake.empty('./dataset_local') ds.create_tensor('images', htype='image’, sample_compression='jpeg') ds.append(....) ds.commit() import deeplake ds = deeplake.deepcopy(src_dataset_path, dest_dataset_path) ds = deeplake.load('./my_dataset_path') • 定型フォーマットを関数で読み込むことが可能 • 作成したデータは様々な保存先に接続することが可能 定型フォーマット データ作成 up/down load データセット作成
紹介 3/3 • 公開されている様々なデータセットを簡単に利用可能 • pytorch, tensorflowのデータセットとして読み込み、即座に訓練が可能 • 大規模なデータをすべて読み込むのでなく部分的に読み込み訓練に使用するこ とが可能なためメモリを圧迫しない
※LLMフレームワーク(LlamaIndex, LangChain)や物体検知(MMDetection)等のオープンソースパッケージとのシームレスな接続も可能 import deeplake ds = deeplake.deepcopy(src_dataset_path, dest_dataset_path) ds = deeplake.load('./my_dataset_path') train_loader = ds.pytorch(num_workers = 8, transform = transform, batch_size = 32, tensors=['images', 'labels'], shuffle = True) train_loader = ds.tensorflow(...) 深層学習フレームワークとの接続