2024年度 CA 1day Youth Boot Camp ~ MLOps ~

CA 1day Youth Boot Camp - MLOps - AI Shift
干飯啓太

2/111 本講義のテーマ研究の機械学習から運用可能な機械学習への入門

3/111 本講義のゴール Portableな実験環境を作れるようになる

4/111 扱うテーマ •Docker •実験管理(MLﬂow)

5/111 今日の講義 MLOpsを本格的に始めるための前段階の話をします

1. MLOpsとは 2. Docker入門 3. 機械学習の実験管理 4. 終わりに

7/111 自己紹介干飯啓太(ほしいけいた) 職種: ML Engineer/Data Scientist 所属:
AI Shift AI Messenger Summary 責任者 @hosimesi11_ @hosimesi

1. MLOpsとは 2. Docker入門 3. 機械学習の実験管理 4. 終わりに講義ハンズオン

MLOpsとは

10/111 MLOpsとは Machine Learning ✖ Operations 機械学習運用

MLOpsの派生 LLMOps FMOps ※ 良くも悪くもバズワードになりやすいので、実態をちゃんと捉えるようにしましょう 11/111

12/111 MLOpsのGoogle Trends

13/111 MLOpsの立ち位置 DevOps for ML

なぜMLOpsが必要なのか？大前提: • DevOpsで必要なことはMLOpsでも必要 ML特有の課題 • 機械学習モデルは入力に対して確率的な振る舞いをする • 最新のデータで再学習しないとモデルが劣化する可能性がある •
モデルにはいくつかのハイパーパラメータがある • コードのライフサイクルとモデルのライフサイクルが違う可能性がある 14/111

MLコードの立ち位置機械学習システムに占めるMLコードはほんの一部 https://proceedings.neurips.cc/paper_files/paper/2015/file/86df7dcfd896fcaf2674f757a2463eba-Paper.pdf 15/111

16/20 MLOpsを構成する要素 Google CloudがまとめたMLOpsの構成要素 https://cloud.google.com/architecture/mlops-continuous -delivery-and-automation-pipelines-in-machine-learning

17/20 MLOpsを構成する要素実験基盤学習パイプライン推論サーバモデルのバージョン管理データのバージョン管理 CI/CD 監視継続的な学習
データ基盤 https://speakerdeck.com/nsakki55/mlops-basic?slide=34 実験基盤学習パイプライン

ここまでの話機械学習システムを作って運用するにはソフトウェアエンジニアリングのスキルは必須 ※ もちろん一人で全部できる必要はないので、チームで強みを補い合って進める https://speakerdeck.com/nsakki55/mlops-basic?slide=31 18/111

今日の講義機械学習システムの構築・運用するためのベースとなるコンテナ技術・実験管理についてのハンズオンを行います 19/111

20/20 今日扱うもの実験基盤学習パイプライン推論サーバモデルのバージョン管理データのバージョン管理 CI/CD 監視継続的な学習
データ基盤 https://speakerdeck.com/nsakki55/mlops-basic?slide=34 実験基盤

21/111 他の部分はこちらを参照実験基盤学習パイプライン推論サーバモデルのバージョン管理データのバージョン管理 CI/CD 監視継続的な学習
データ基盤

Docker入門

Prerequisites 1.Docker Desktop 2.Docker Hubユーザ登録 3.GitHubレポジトリのClone ※ 次のページに具体的な方法を書いていますので参照してください 23/111

Docker Desktopのインストール homebrewが入っている方 $ brew install --cask docker 直接ダウンロードする方(Mac) こちらに沿ってインストール
直接ダウンロードする方(Windows) こちらに沿ってインストール 24/111

Docker Hubユーザ登録 25/111

レポジトリのClone レポジトリ: https://github.com/hosimesi/mlops-introduction 26/111

レポジトリのClone $ git clone https://github.com/hosimesi/mlops-introduction $ cd mlops-introduction https://github.com/CyberAgentAI/dsc-onboarding-mlops-2024 レポジトリのClone
ディレクトリ移動 27/111 ※ macでgitが使えない場合、 xcodeのアップデートをしてください

ディレクトリの外観 https://github.com/CyberAgentAI/dsc-onboarding-mlops-2024 . ├── 1-notebook-in-docker │ ├── README.md │ ├──
poetry.lock │ ├── pyproject.toml │ └── train.ipynb ├── 2-docker-mlﬂow │ ├── Dockerﬁle │ ├── README.md │ ├── poetry.lock │ ├── pyproject.toml │ └── train.ipynb ├── README.md └── train_data.zip $ tree 本章: Docker入門で使用次章: 実験管理で使用 28/111

データとコードの前準備 $ unzip train_data.zip $ cp train_data 1-notebook-in-docker/train_data データの解凍ファイルのコピー
$ cp train_data 2-docker-mlﬂow/train_data 29/111

研究での環境構築研究で使うコードや環境はどのように管理していますか？ 30/111

コード管理ローカルでコード管理なし何かしらのクラウドストレージ Git 31/111

環境構築 pip poetry uv・rye anaconda venv pyenv 32/111

こんなことはありませんか？ pip installが通らない先輩から引き継がれたコードが動かない環境構築で時間を溶かす手元で動かしたコードがサーバでは動かない 33/111

34/20 Welcome to Container

Docker Docker is an open platform for developing, shipping, and
running applications. Docker enables you to separate your applications from your infrastructure so you can deliver software quickly. With Docker, you can manage your infrastructure in the same ways you manage your applications. By taking advantage of Docker's methodologies for shipping, testing, and deploying code, you can signiﬁcantly reduce the delay between writing code and running it in production. https://docs.docker.com/get-started/docker-overview/ 35/111

Why Docker? • コードを動かすために必要なパッケージはDockerに全て含む ◦ Dockerさえ入っていればどの環境でも動く状態に ▪ pipやpyenvではダメ?？ • コード共有時や引き継ぎはどうする？
• OSへの直インストールなどはどう対応？ • 実験コードを動かすための手順をDockerで隠蔽 ◦ Docker Commandの実行のみで完結 • クラウドのコンテナサービスに機械学習アプリケーションをそのままデプロイ可能 ◦ 2024年現在だとMLに限らず、アプリケーション運用の業界標準 https://speakerdeck.com/chck/container-for-mlops?slide=12 36/111

コンテナと仮想マシンの違い https://www.docker.com/ja-jp/resources/what-container/ コンテナ: アプリレイヤーの抽象化でOS カーネルを他のコンテナーと共有し、それぞれがユーザー空間で分離されたプロセスとして実行仮想マシン: 物理ハードウェアの抽象化したものでOSレベルで分離可能だが起動が遅い 37/111

コンテナ実行手順 ※ Dockerfileを書かずとも、ビルド済みイメージを引っ張ってきて実行することも可能 38/111

より良い研究開発環境を作るいきなり全部変更するのはハードルが高いと思うので段階的に導入してみましょう pythonを直インストールしている方 → uvやpyenv + poetry 直接環境構築している方 →
Docker コード管理していない方 → Git Linter・Formatterを設定していない方 → Ruﬀ + mypyやpysen 39/111

余談: 最近のPython事情 Rust製ツールが人気 uv: • https://astral.sh/blog/uv • package manager rye:
• https://rye-up.com/ • package manager ruﬀ: • https://github.com/astral-sh/ruﬀ • linter & formatter 40/111

余談: 最近のPython事情 • pytest • mypy • black • ﬂake8
• isort • pytest • mypy • ruﬀ Pythonプロジェクトの開始時に入れるべきライブラリ群がアップデート 41/111

PythonのNotebookをDocker化する 1. 既にあるPythonのNotebookをDocker化する ※ ライブラリのインストールはpoetryで行なっているとしますステップ 1. 既存のPython環境の依存を含んだDocker Imageの作成 2.
Jupyter NotebookをDockerコンテナ内で実行 42/111

Notebookで行っていることオンライン広告のクリックスルー率 (CTR)を予測するモデルの作成やっていること • データの読み込み • データの前処理 • モデルの学習
◦ SGD Classiﬁer • 評価 https://github.com/nsakki55/aws-mlops-handson/blob/main/analyse.ipynb 43/111

使用しているデータ Avazu CTRデータオンライン広告のCTRを予測する問題 44/111

ベースイメージを決める python docker で検索 ※ 最新のDockerfileの書き方はこちらの記事が参考になります 45/111

ベースイメージを決める 46/111

ベースイメージを決める注目 47/111

どのイメージを使うか？おすすめはSlimイメージ python:3.12 python:3.12-slim python:3.12-alpine フルパッケージ(サイズが大きい) 軽量版(ちょうど良い) 最軽量版(必要なものが入っていないこともあり) $ docker
pull python:tag $ docker images | grep python python 3.12-slim cec3038ab647 6 days ago 254MB python 3.12-alpine aeﬀ64320ﬀb 6 days ago 86.2MB python 3.12 3c085580c5f2 6 days ago 1.46GB 48/111

Dockerfileを書く 49/111 $ $EDITOR Dockerfile Dockerfileの作成 EDITORはvscodeやvimなど自身が使いたいものでOK $ cd path/to/1-notebook-in-docker
ディレクトリの移動

Dockerﬁleを書く FROM python:3.12-slim AS base RUN apt-get update && apt-get
install -y --no-install-recommends \ && apt-get clean && rm -rf /var/lib/apt/lists/* WORKDIR /app ENV PYTHONPATH=/app COPY pyproject.toml poetry.lock ./ RUN pip install --upgrade pip \ && pip install poetry=="1.8.3" \ && poetry export --with app --without-hashes -f requirements.txt -o requirements.txt \ && pip install -r requirements.txt COPY train.ipynb /app ENTRYPOINT ["jupyter", "lab", "--port", "8080", "--ip=0.0.0.0", "--no-browser", "--allow-root", "--NotebookApp.token=''"] EXPOSE 8080 50/111

install -y --no-install-recommends \ && apt-get clean && rm -rf /var/lib/apt/lists/* WORKDIR /app ENV PYTHONPATH=/app COPY pyproject.toml poetry.lock ./ RUN pip install --upgrade pip \ && pip install poetry=="1.8.3" \ && poetry export --with app --without-hashes -f requirements.txt -o requirements.txt \ && pip install -r requirements.txt COPY train.ipynb /app ENTRYPOINT ["jupyter", "lab", "--port", "8080", "--ip=0.0.0.0", "--no-browser", "--allow-root", "--NotebookApp.token=''"] EXPOSE 8080 ベースイメージの指定 51/111

install -y --no-install-recommends \ && apt-get clean && rm -rf /var/lib/apt/lists/* WORKDIR /app ENV PYTHONPATH=/app COPY pyproject.toml poetry.lock ./ RUN pip install --upgrade pip \ && pip install poetry=="1.8.3" \ && poetry export --with app --without-hashes -f requirements.txt -o requirements.txt \ && pip install -r requirements.txt COPY train.ipynb /app ENTRYPOINT ["jupyter", "lab", "--port", "8080", "--ip=0.0.0.0", "--no-browser", "--allow-root", "--NotebookApp.token=''"] EXPOSE 8080 環境構築の依存コマンドの実行 52/111

install -y --no-install-recommends \ && apt-get clean && rm -rf /var/lib/apt/lists/* WORKDIR /app ENV PYTHONPATH=/app COPY pyproject.toml poetry.lock ./ RUN pip install --upgrade pip \ && pip install poetry=="1.8.3" \ && poetry export --with app --without-hashes -f requirements.txt -o requirements.txt \ && pip install -r requirements.txt COPY train.ipynb /app ENTRYPOINT ["jupyter", "lab", "--port", "8080", "--ip=0.0.0.0", "--no-browser", "--allow-root", "--NotebookApp.token=''"] EXPOSE 8080 Image内での実行ディレクトリ指定 53/111

install -y --no-install-recommends \ && apt-get clean && rm -rf /var/lib/apt/lists/* WORKDIR /app ENV PYTHONPATH=/app COPY pyproject.toml poetry.lock ./ RUN pip install --upgrade pip \ && pip install poetry=="1.8.3" \ && poetry export --with app --without-hashes -f requirements.txt -o requirements.txt \ && pip install -r requirements.txt COPY train.ipynb /app ENTRYPOINT ["jupyter", "lab", "--port", "8080", "--ip=0.0.0.0", "--no-browser", "--allow-root", "--NotebookApp.token=''"] EXPOSE 8080 環境変数の指定 54/111

install -y --no-install-recommends \ && apt-get clean && rm -rf /var/lib/apt/lists/* WORKDIR /app ENV PYTHONPATH=/app COPY pyproject.toml poetry.lock ./ RUN pip install --upgrade pip \ && pip install poetry=="1.8.3" \ && poetry export --with app --without-hashes -f requirements.txt -o requirements.txt \ && pip install -r requirements.txt COPY train.ipynb /app ENTRYPOINT ["jupyter", "lab", "--port", "8080", "--ip=0.0.0.0", "--no-browser", "--allow-root", "--NotebookApp.token=''"] EXPOSE 8080 Image内へのファイルのコピー local://{pwd}/ﬁle_name docker://app/ﬁle_name 55/111

install -y --no-install-recommends \ && apt-get clean && rm -rf /var/lib/apt/lists/* WORKDIR /app ENV PYTHONPATH=/app COPY pyproject.toml poetry.lock ./ RUN pip install --upgrade pip \ && pip install poetry=="1.8.3" \ && poetry export --with app --without-hashes -f requirements.txt -o requirements.txt \ && pip install -r requirements.txt COPY train.ipynb /app ENTRYPOINT ["jupyter", "lab", "--port", "8080", "--ip=0.0.0.0", "--no-browser", "--allow-root", "--NotebookApp.token=''"] EXPOSE 8080 コンテナ実行時の実行コマンド 56/111

install -y --no-install-recommends \ && apt-get clean && rm -rf /var/lib/apt/lists/* WORKDIR /app ENV PYTHONPATH=/app COPY pyproject.toml poetry.lock ./ RUN pip install --upgrade pip \ && pip install poetry=="1.8.3" \ && poetry export --with app --without-hashes -f requirements.txt -o requirements.txt \ && pip install -r requirements.txt COPY train.ipynb /app ENTRYPOINT ["jupyter", "lab", "--port", "8080", "--ip=0.0.0.0", "--no-browser", "--allow-root", "--NotebookApp.token=''"] EXPOSE 8080 コンテナのポートを公開 57/111

Docker Imageの作成 $ docker build . -t notebook-in-docker:1.0 58/111

Docker Imageの作成 $ docker build . -t notebook-in-docker:1.0 ビルドコンテキスト: COPYの起点になる部分で基本的にDockerﬁleのある位置
イメージ名タグ: 運用時はcommit hashをつけるのが一般的 59/111

Docker Imageの作成 $ docker images | grep notebook-in-docker notebook-in-docker 1.0
b37964265132 56 seconds ago 380MB 60/111

Docker Containerの実行 $ docker run -p 8080:8080 --rm notebook-in-docker:1.0 61/111

Docker Containerの実行 $ docker run -p 8080:8080 --rm notebook-in-docker:1.0 実行コマンド
コンテナポートをホストマシン側にポートフォワード起動後コンテナは破棄イメージ名 [I 2024-09-07 14:44:20.730 ServerApp] jupyter_lsp | extension was successfully linked. [I 2024-09-07 14:44:20.731 ServerApp] jupyter_server_terminals | extension was successfully linked. [W 2024-09-07 14:44:20.732 LabApp] 'token' has moved from NotebookApp to ServerApp. This config will be passed to ServerApp. Be sure to update your config before our next release : :. 62/111 ※ -–rm: 不要なコンテナがシステムのリソースを占有するのを防ぐ

Tips: Docker Containerの中に入るには？ 63/111 $ docker exec -it {container_id} bash
コンテナ内に入ってデバッグしたい時実行コマンドは上書き可能コンテナの中に入る $ docker ps コンテナ一覧確認

Tips: Docker Imageの調査脆弱性の調査 $ docker scout ~~ local://notebook-in-docker:1.0 $
docker scout recommendations local://notebook-in-docker:1.0 脆弱性の減少やイメージサイズの縮小の調査 Docker Imageの調査 $ docker scout cves local://notebook-in-docker:1.0 例 64/111 ※ docker scoutはinstallが必要(https://docs.docker.com/scout/install/)

Tips: コンテナ内での編集を元ファイルに反映したい今のままだとcontainer内でnotebookを編集したとしても、containerを落とした場合に元々のファイルは変更されていない local コンテナ内コピー同期されない $ docker run
-p 8080:8080 -v $PWD/train.ipynb:/app/train.ipynb --rm notebook-in-docker:1.0 Volumeを使ってマウントする 65/111

Tips: モデルなど大きなファイルを扱いたい時機械学習で使うデータをそのままコンテナ内に入れるとイメージサイズが大きくなる $ docker run -p 8080:8080 -v $PWD/train_data:/app/train_data
--rm notebook-in-docker:1.0 Volumeを使う volumeでsyncすることでイメージサイズを小さくする 66/111

モデルの学習(データ読み込み) 67/109 PandasのDataFrame形式で読み込み

モデルの学習(前処理) 68/109

モデルの学習(学習) 69/109

Jupyterの実行 http://localhost:8080/ にアクセス train.ipynbをopen Run All Cells Grid Search| alpha:
1e-05, score: 0.3974486898518637 Grid Search| alpha: 0.0001, score: 0.3933346694988594 Grid Search| alpha: 0.001, score: 0.4020087564820292 Grid Search| alpha: 100.0, score: 0.6864819640382058 Grid Search| alpha: 0.1, score: 0.43974074906133426 test logloss: 0.40316918447397815 AUC: 0.721722629994545 Accuracy: 0.8375670929283435 70/111 終わったらコンテナを終了

実験管理

実験管理とは Experiment management in the context of machine learning is
a process of tracking experiment metadata like: • code versions, • data versions, • hyperparameters, • environment, • metrics, organizing them in a meaningful way and making them available to access and collaborate on within your organization . In the next sections, you will see exactly what that means with examples and implementations. https://neptune.ai/blog/experiment-management 72/111

よくあるユースケース1 先輩が残したコード再現実験動かない研究室にて先輩の研究の引き継ぎ 73/111

よくあるユースケース2 PoC 設定が見つからない PoCの結果と実験設定の提示受注 PoCの実験設定教えて！ 74/111

実験管理ができていない場合 https://speakerdeck.com/nsakki55/mlops-basic?slide=36 実験基盤が整備されていないと ◦ 再現性の低下 ◦ バグの頻発 ◦ データサイエンティストのサイロ化 75/111

実験の何を管理するのか • インフラ ◦ 実験に使用したマシン・ソフトウェアバージョン • コードのバージョン ◦ どのような実験コードを使用したか •
データの設定 ◦ データをどのような設定で行ったか • モデルのパラメータ ◦ ハイパーパラメータの実験設定 • メトリクス ◦ モデルの評価 76/111

MLflowとは A Tool for Managing the Machine Learning Lifecycle MLflow
is an open-source platform , purpose-built to assist machine learning practitioners and teams in handling the complexities of the machine learning process. MLflow focuses on the full lifecycle for machine learning projects , ensuring that each phase is manageable , traceable , and reproducible . https://mlflow.org/docs/latest/index.html 77/111

Docker Compose Docker Compose is a tool for defining and
running multi-container applications . It is the key to unlocking a streamlined and efficient development and deployment experience. Compose simplifies the control of your entire application stack, making it easy to manage services, networks, and volumes in a single , comprehensible YAML configuration file. Then, with a single command, you create and start all the services from your configuration file. https://docs.docker.com/compose/ 78/111

Why Docker Compose? 複数のContainer(application, DB, etc..)を立てる時、一つずつdocker runするのは大変 docker composeを使うと単一のYAMLで複数のコンテナアプリケーションの定義と管理が可能
Docker: $ docker run ~~ Docker Compose:(compose.yamlがあるディレクトリで) $ docker compose up 79/111

compose.yamlの作成 services: jupyter: container_name: jupyter_container build: context: . dockerfile: Dockerfile
volumes: - ./:/app ports: - 8080:8080 command: jupyter lab --port 8080 --ip=0.0.0.0 --no-browser --allow-root --NotebookApp.token='' restart: always tty: true environment: - TZ=Asia/Tokyo mlflow: container_name: mlflow_container build: context: . dockerfile: Dockerfile volumes: - ./mlflow:/app/.mlflow depends_on: - jupyter ports: - 5000:5000 command: mlflow server --backend-store-uri /app/.mlflow --host 0.0.0.0 --port 5000 restart: always tty: true environment: - TZ=Asia/Tokyo $ $EDITOR compose.yaml 80/111 $ cd path/to/2-docker-mlflow ディレクトリ移動 compose.yaml

volumes: - ./:/app ports: - 8080:8080 command: jupyter lab --port 8080 --ip=0.0.0.0 --no-browser --allow-root --NotebookApp.token='' restart: always tty: true environment: - TZ=Asia/Tokyo mlflow: container_name: mlflow_container build: context: . dockerfile: Dockerfile volumes: - ./mlflow:/app/.mlflow depends_on: - jupyter ports: - 5000:5000 command: mlflow server --backend-store-uri /app/.mlflow --host 0.0.0.0 --port 5000 restart: always tty: true environment: - TZ=Asia/Tokyo コンテナごとの定義 81/111

volumes: - ./:/app ports: - 8080:8080 command: jupyter lab --port 8080 --ip=0.0.0.0 --no-browser --allow-root --NotebookApp.token='' restart: always tty: true environment: - TZ=Asia/Tokyo mlflow: container_name: mlflow_container build: context: . dockerfile: Dockerfile volumes: - ./mlflow:/app/.mlflow depends_on: - jupyter ports: - 5000:5000 command: mlflow server --backend-store-uri /app/.mlflow --host 0.0.0.0 --port 5000 restart: always tty: true environment: - TZ=Asia/Tokyo コンテナ名 82/111

volumes: - ./:/app ports: - 8080:8080 command: jupyter lab --port 8080 --ip=0.0.0.0 --no-browser --allow-root --NotebookApp.token='' restart: always tty: true environment: - TZ=Asia/Tokyo mlflow: container_name: mlflow_container build: context: . dockerfile: Dockerfile volumes: - ./mlflow:/app/.mlflow depends_on: - jupyter ports: - 5000:5000 command: mlflow server --backend-store-uri /app/.mlflow --host 0.0.0.0 --port 5000 restart: always tty: true environment: - TZ=Asia/Tokyo ビルド設定 83/111

volumes: - ./:/app ports: - 8080:8080 command: jupyter lab --port 8080 --ip=0.0.0.0 --no-browser --allow-root --NotebookApp.token='' restart: always tty: true environment: - TZ=Asia/Tokyo mlflow: container_name: mlflow_container build: context: . dockerfile: Dockerfile volumes: - ./mlflow:/app/.mlflow depends_on: - jupyter ports: - 5000:5000 command: mlflow server --backend-store-uri /app/.mlflow --host 0.0.0.0 --port 5000 restart: always tty: true environment: - TZ=Asia/Tokyo volumeのsync 84/111

volumes: - ./:/app ports: - 8080:8080 command: jupyter lab --port 8080 --ip=0.0.0.0 --no-browser --allow-root --NotebookApp.token='' restart: always tty: true environment: - TZ=Asia/Tokyo mlflow: container_name: mlflow_container build: context: . dockerfile: Dockerfile volumes: - ./mlflow:/app/.mlflow depends_on: - jupyter ports: - 5000:5000 command: mlflow server --backend-store-uri /app/.mlflow --host 0.0.0.0 --port 5000 restart: always tty: true environment: - TZ=Asia/Tokyo コンテナの立ち上げ順序の依存の設定 85/111

volumes: - ./:/app ports: - 8080:8080 command: jupyter lab --port 8080 --ip=0.0.0.0 --no-browser --allow-root --NotebookApp.token='' restart: always tty: true environment: - TZ=Asia/Tokyo mlflow: container_name: mlflow_container build: context: . dockerfile: Dockerfile volumes: - ./mlflow:/app/.mlflow depends_on: - jupyter ports: - 5000:5000 command: mlflow server --backend-store-uri /app/.mlflow --host 0.0.0.0 --port 5000 restart: always tty: true environment: - TZ=Asia/Tokyo ポートフォワード 86/111

volumes: - ./:/app ports: - 8080:8080 command: jupyter lab --port 8080 --ip=0.0.0.0 --no-browser --allow-root --NotebookApp.token='' restart: always tty: true environment: - TZ=Asia/Tokyo mlflow: container_name: mlflow_container build: context: . dockerfile: Dockerfile volumes: - ./mlflow:/app/.mlflow depends_on: - jupyter ports: - 5000:5000 command: mlflow server --backend-store-uri /app/.mlflow --host 0.0.0.0 --port 5000 restart: always tty: true environment: - TZ=Asia/Tokyo コンテナの実行コマンドもし、Dockerfileにもコマンド書かれている時は compose.yamlのコマンドで上書きされる 87/111

volumes: - ./:/app ports: - 8080:8080 command: jupyter lab --port 8080 --ip=0.0.0.0 --no-browser --allow-root --NotebookApp.token='' restart: always tty: true environment: - TZ=Asia/Tokyo mlflow: container_name: mlflow_container build: context: . dockerfile: Dockerfile volumes: - ./mlflow:/app/.mlflow depends_on: - jupyter ports: - 5000:5000 command: mlflow server --backend-store-uri /app/.mlflow --host 0.0.0.0 --port 5000 restart: always tty: true environment: - TZ=Asia/Tokyo リスタート設定と標準出力設定 88/111

volumes: - ./:/app ports: - 8080:8080 command: jupyter lab --port 8080 --ip=0.0.0.0 --no-browser --allow-root --NotebookApp.token='' restart: always tty: true environment: - TZ=Asia/Tokyo mlflow: container_name: mlflow_container build: context: . dockerfile: Dockerfile volumes: - ./mlflow:/app/.mlflow depends_on: - jupyter ports: - 5000:5000 command: mlflow server --backend-store-uri /app/.mlflow --host 0.0.0.0 --port 5000 restart: always tty: true environment: - TZ=Asia/Tokyo 環境変数 89/111

MLﬂowの立ち上げ 90/111 $ docker compose up --build http://localhost:5000/ にアクセス強制的にbuild
※ もし、portが被って立ち上がらない場合ポート: 5000 -> 5001

Jupyter Labの立ち上げ先ほどのdocker composeでjupyter serverも一緒に立ち上がる http://0.0.0.0:8080/ にアクセス 91/111

実装の追加 import pandas as pd from sklearn.linear_model import SGDClassifier from
sklearn.feature_extraction import FeatureHasher from sklearn.model_selection import train_test_split import warnings from sklearn import metrics warnings.filterwarnings('ignore') ### 追加 ### import mlflow import mlflow.sklearn from mlflow.models.signature import infer_signature mlflow.set_tracking_uri("http://mlflow_container:5000") mlflow.set_experiment("ca24-mlops-introduction") 92/111 train.ipynb(1の実装とほぼ同じ)への追加

実装の追加 train.ipynb(1の実装とほぼ同じ)への追加 import pandas as pd from sklearn.linear_model import SGDClassifier
from sklearn.feature_extraction import FeatureHasher from sklearn.model_selection import train_test_split import warnings from sklearn import metrics warnings.filterwarnings('ignore') ### 追加 ### import mlflow import mlflow.sklearn from mlflow.models.signature import infer_signature mlflow.set_tracking_uri("http://mlflow_container:5000") mlflow.set_experiment("ca24-mlops-introduction") MLflowライブラリのインポート 93/111

実装の追加 train.ipynb(1の実装とほぼ同じ)への追加 import pandas as pd from sklearn.linear_model import SGDClassifier
from sklearn.feature_extraction import FeatureHasher from sklearn.model_selection import train_test_split import warnings from sklearn import metrics warnings.filterwarnings('ignore') ### 追加 ### import mlflow import mlflow.sklearn from mlflow.models.signature import infer_signature mlflow.set_tracking_uri("http://mlflow_container:5000") mlflow.set_experiment("ca24-mlops-introduction") 実験名をつける(なんでもOK) MLflowのURIを指定 Docker Composeで同じネットワークにたてた場合、 http://{container_name}:{port}でアクセス可能 mlflow: container_name: mlflow_container build: context: . dockerfile: Dockerfile : ports: - 5000:5000 : 94/111

ハイパラチューニング def grid_search(X_train, y_train, X_valid, y_valid): best_score = 1e10 best_alpha
= 100 for alpha in [1e-5, 1e-4, 1e-3, 1e-2, 1e-1]: : : if best_score > valid_score: best_score = valid_score best_alpha = alpha ### 追加 ### # Log parameter and metrics with mlflow.start_run(run_name=f"Grid Search alpha={alpha}"): mlflow.log_param("alpha", alpha) mlflow.log_metric("train_score", train_score) mlflow.log_metric("valid_score", valid_score) mlflow.log_param("train_size", X_train.shape[0]) mlflow.log_param("valid_size", X_valid.shape[0]) return best_alpha ハイパラチューニングのメトリクスを送信 95/111

= 100 for alpha in [1e-5, 1e-4, 1e-3, 1e-2, 1e-1]: : : if best_score > valid_score: best_score = valid_score best_alpha = alpha ### 追加 ### # Log parameter and metrics with mlflow.start_run(run_name=f"Grid Search alpha={alpha}"): mlflow.log_param("alpha", alpha) mlflow.log_metric("train_score", train_score) mlflow.log_metric("valid_score", valid_score) mlflow.log_param("train_size", X_train.shape[0]) mlflow.log_param("valid_size", X_valid.shape[0]) return best_alpha ハイパラチューニングのメトリクスを送信新たな実行の開始この中で送られるメトリクスは全て同一runとして紐づけられる 96/111

= 100 for alpha in [1e-5, 1e-4, 1e-3, 1e-2, 1e-1]: : : if best_score > valid_score: best_score = valid_score best_alpha = alpha ### 追加 ### # Log parameter and metrics with mlflow.start_run(run_name=f"Grid Search alpha={alpha}"): mlflow.log_param("alpha", alpha) mlflow.log_metric("train_score", train_score) mlflow.log_metric("valid_score", valid_score) mlflow.log_param("train_size", X_train.shape[0]) mlflow.log_param("valid_size", X_valid.shape[0]) return best_alpha ハイパラチューニングのメトリクスを送信メトリクスの送信パラメータはパラメータとして、メトリクスはメトリクスとして送信 • alpha • trainのlogloss • validのlogloss • trainデータのサイズ • validデータのサイズ 97/111

最終結果の送信 best_alpha = grid_search(X_train_preprocessed, y_train, X_valid_preprocessed, y_valid) : : print("test
logloss: {}".format(logloss)) print("AUC: {}".format(auc)) print("Accuracy: {}".format(accuracy)) ### 追加 ### with mlflow.start_run(run_name="Model Evaluation") as run: mlflow.log_metric("test_logloss", logloss) mlflow.log_metric("AUC", auc) mlflow.log_metric("Accuracy", accuracy) mlflow.log_param("best_alpha", best_alpha) run_id = run.info.run_id sig = infer_signature(X_train_preprocessed, best_model.predict(X_train_preprocessed)) mlflow.sklearn.log_model(best_model, "sgd_classifier", signature=sig, input_example=X_test_preprocessed[0]) mlflow.register_model(f"runs:/{run_id}/sgd_classifier", "sgd_classifier") 最終結果のメトリクスを送信 98/111

logloss: {}".format(logloss)) print("AUC: {}".format(auc)) print("Accuracy: {}".format(accuracy)) ### 追加 ### with mlflow.start_run(run_name="Model Evaluation") as run: mlflow.log_metric("test_logloss", logloss) mlflow.log_metric("AUC", auc) mlflow.log_metric("Accuracy", accuracy) mlflow.log_param("best_alpha", best_alpha) run_id = run.info.run_id sig = infer_signature(X_train_preprocessed, best_model.predict(X_train_preprocessed)) mlflow.sklearn.log_model(best_model, "sgd_classifier", signature=sig, input_example=X_test_preprocessed[0]) mlflow.register_model(f"runs:/{run_id}/sgd_classifier", "sgd_classifier") 最終結果のメトリクスを送信新たな実行の開始 99/111

logloss: {}".format(logloss)) print("AUC: {}".format(auc)) print("Accuracy: {}".format(accuracy)) ### 追加 ### with mlflow.start_run(run_name="Model Evaluation") as run: mlflow.log_metric("test_logloss", logloss) mlflow.log_metric("AUC", auc) mlflow.log_metric("Accuracy", accuracy) mlflow.log_param("best_alpha", best_alpha) run_id = run.info.run_id sig = infer_signature(X_train_preprocessed, best_model.predict(X_train_preprocessed)) mlflow.sklearn.log_model(best_model, "sgd_classifier", signature=sig, input_example=X_test_preprocessed[0]) mlflow.register_model(f"runs:/{run_id}/sgd_classifier", "sgd_classifier") 最終結果のメトリクスを送信メトリクスの送信パラメータはパラメータとして、メトリクスはメトリクスとして送信 • best_alpha • testのlogloss • AUC • Accuracy 100/111

logloss: {}".format(logloss)) print("AUC: {}".format(auc)) print("Accuracy: {}".format(accuracy)) ### 追加 ### with mlflow.start_run(run_name="Model Evaluation") as run: mlflow.log_metric("test_logloss", logloss) mlflow.log_metric("AUC", auc) mlflow.log_metric("Accuracy", accuracy) mlflow.log_param("best_alpha", best_alpha) run_id = run.info.run_id sig = infer_signature(X_train_preprocessed, best_model.predict(X_train_preprocessed)) mlflow.sklearn.log_model(best_model, "sgd_classifier", signature=sig, input_example=X_test_preprocessed[0]) mlflow.register_model(f"runs:/{run_id}/sgd_classifier", "sgd_classifier") 最終結果のメトリクスを送信モデルの登録学習済みモデルをインターフェイスとともに保存 101/111

結果の確認 http://localhost:5000にアクセス Experiments Notebook指定した名前で作成 Run Name Runごとのメトリクスが表示 102/111

モデルのメトリクス 103/111

ハイパーパラメータのメトリクス 104/111

モデルの登録 105/111

Tips: 他の用途 106/109

最後に

コンテナ技術コンテナ技術は現代のクラウドアプリケーションのスタンダード技術依存を閉じこめ再配布可能な形で環境を作るリリースまでを意識して、Portableな環境を作る少しずつ自身の環境を運用可能な状態に移行していきましょう 108/111

実験管理 MLﬂowを使いこなして欲しいわけではなく、実験管理の一例を示した他の実験管理ツール(Weights & Biasesなど)もあるので、自分たちにあったものを選択する実験管理し、共有可能な実験をする ※ MLﬂowには他にもいろんな機能があるので気になる方は色々見てみてください 109/111

110/111 他の部分はこちらを参照実験基盤学習パイプライン推論サーバモデルのバージョン管理データのバージョン管理 CI/CD 監視継続的な学習
データ基盤

参考 • https://speakerdeck.com/szma5a/container-for-mlops • https://speakerdeck.com/chck/container-for-mlops • https://speakerdeck.com/nsakki55/mlops-basic • https://future-architect.github.io/articles/20240726a/ 111/111

2024年度 CA 1day Youth Boot Camp ~ MLOps ~

2024年度 CA 1day Youth Boot Camp ~ MLOps ~

More Decks by Keita Hoshii

Other Decks in Technology

Featured

Transcript