SPCSでエンドツーエンドな深層学習に挑戦してみた

© 2024 NTT DATA Japan Corporation SPCSでエンドツーエンドな深層学習に挑戦してみた Snowpark Container Servicesで解き放つ！データアプリケーションの魔法
2024年3月1日株式会社NTTデータ Snowflakeビジネス推進室檜山徹（Hiyama Toru）

© 2024 NTT DATA Japan Corporation 自己紹介檜山徹（Hiyama Toru）
株式会社NTTデータ Snowflakeビジネス推進室員！ SnowVillage Team Streamlit メンバー SNS X（Twitter）: @toru_data Qiita：@toru_hiyama SnowVillage #certifications にて、毎日30分～1時間もくもくしてゲット！

© 2024 NTT DATA Japan Corporation 目次エンドツーエンドの深層学習アーキテクチャ ① コンテナ
② 深層学習 ③ ジョブ・コンピュートプール ④ ジョブの確認 ⑤⑥ Streamlitアプリまとめ

© 2024 NTT DATA Japan Corporation エンドツーエンドの深層学習アーキテクチャ ➢ 本LTでは、このアーキテクチャをかいつまんで解説していきます。開発環境
Snowflake拡張機能イメージレジストリ ①コンテナイメージPush docker build ～ doker push ～ Compute Pool モデルレジストリボリューム（ステージ） execute service in compute pool ~ from @stage spec=spec.yml コンテナ train.py ④マウント ②深層学習資材準備 PUT file:// ～ ④訓練済みモデル保存 ④コンテナロード ③ジョブ定義・実行 ⑤ジョブ実行 ③ジョブ起動 ⑥訓練済みモデル呼び出しイベントテーブル ④イベントログ保存 CI/CDもできるようになってきていますが、今回は試せていません。

© 2024 NTT DATA Japan Corporation ① コンテナイメージと構成ファイル（準備１／３） • Dockerfileからコンテナイメージを作成
• コンテナイメージをSnowflakeリポジトリにアップロード • コンテナ構成ファイル（spec.yml）をアップロード > docker build -t spcs-pytorch . > docker push <repository url>/spcs-pytorch (snowsql) > put file://<path>/spec.yml @spec_stg 構成ファイルでは下記を指定 • コンテナイメージ • GPUの制限 • マウントするボリューム

© 2024 NTT DATA Japan Corporation ② 深層学習訓練用スクリプト・画像（準備２／３） •
PyTorchによる訓練スクリプトを記述 • 超簡易なニューラルネットワークモデルと訓練スクリプト • イベントテーブルへのログ保存 • 訓練済みモデルをSnowflakeのモデルレジストリに登録 • 訓練用資材をボリューム用ステージに配置 (snowsql) > put file://<path>/train.py @volume (snowsql) > put file://<path>/MNIST/* @volume ちなみに、セッションの作成は、 OAuthトークンにより行います。

© 2024 NTT DATA Japan Corporation ③ ジョブ定義（準備３／３） • コンピュートプールの作成
• ジョブ定義・実行 execute service in compute pool gpu_job_pool from @spec_stg spec=spec.yml ; create compute pool gpu_job_pool min_nodes=1 max_nodes=1 instance_family=GPU_NV_S ;

© 2024 NTT DATA Japan Corporation ④ モデル訓練ジョブの呼び出し結果の確認 ➢ いい感じ！
GPUも認識してるログもちゃんとイベントテーブルに吐き出されてるモデルもモデルレジストリに保存されてる！学習もできてる（ボリューム（ステージ）に保存）

© 2024 NTT DATA Japan Corporation おわりに ◼ 深層学習をするための足回りさえ揃えてしまえば、開発環境で記述した訓練用コードをPutするだけで、
GPUによるモデル訓練からSnowflakeへのデプロイまで行えることがわかりました。 ✓ SnowflakeのDev・ML機能、だいぶそろってきた！ ◼ 今回の検証を通じて、なんでSPCSじゃないといけないの？に対して、すでにSnowflakeを導入しているが、クラウドをそこまで利用していない方々が、低い学習コスト・運用コストでコンテナ環境を構築できることにあると感じました。 ✓ やっぱり、マネージドは、プライスレス！開発環境 Snowflake拡張機能イメージレジストリ ①コンテナイメージPush docker build ～ doker push ～ Compute Pool モデルレジストリボリューム（ステージ） execute service in compute pool ~ from @stage spec=spec.yml コンテナ train.py ④マウント ②深層学習資材準備 PUT file:// ～ ④訓練済みモデル保存 ④コンテナロード ③ジョブ定義・実行 ⑤ジョブ実行 ③ジョブ起動 ⑥訓練済みモデル呼び出しイベントテーブル ④イベントログ保存 CI/CDもできるようになってきていますが、今回は試せていません。

SPCSでエンドツーエンドな深層学習に挑戦してみた

SPCSでエンドツーエンドな深層学習に挑戦してみた

Toru Hiyama

More Decks by Toru Hiyama

Featured

Transcript

© 2024 NTT DATA Japan Corporation SPCSでエンドツーエンドな深層学習に挑戦してみた Snowpark Container Servicesで解き放つ！データアプリケーションの魔法

© 2024 NTT DATA Japan Corporation 自己紹介檜山徹（Hiyama Toru）

© 2024 NTT DATA Japan Corporation 目次エンドツーエンドの深層学習アーキテクチャ ① コンテナ

© 2024 NTT DATA Japan Corporation エンドツーエンドの深層学習アーキテクチャ ➢ 本LTでは、このアーキテクチャをかいつまんで解説していきます。開発環境

© 2024 NTT DATA Japan Corporation ① コンテナイメージと構成ファイル（準備１／３） • Dockerfileからコンテナイメージを作成

© 2024 NTT DATA Japan Corporation ② 深層学習訓練用スクリプト・画像（準備２／３） •

© 2024 NTT DATA Japan Corporation ③ ジョブ定義（準備３／３） • コンピュートプールの作成

© 2024 NTT DATA Japan Corporation ④ モデル訓練ジョブの呼び出し結果の確認 ➢ いい感じ！

© 2024 NTT DATA Japan Corporation ⑤⑥ Streamlitアプリの作成 ➢ Team

© 2024 NTT DATA Japan Corporation おわりに ◼ 深層学習をするための足回りさえ揃えてしまえば、開発環境で記述した訓練用コードをPutするだけで、