Testing machine learning development

機械学習の開発をテストする 2021/06/26 shibui yusuke

自己紹介 shibui yusuke • 自動運転スタートアップのティアフォー所属 • MLOpsエンジニア & インフラエンジニア &
データエンジニア • もともとクラウド基盤の開発、運用。 • ここ5年くらいMLOpsで仕事。 • Github: @shibuiwilliam • Qiita: @cvusk • FB: yusuke.shibui • 最近やってること: IstioとGoとデータ分析 cat : 0.55 dog: 0.45 human : 0.70 gorilla : 0.30 物体検知

本を出版しました！ • AIエンジニアのための機械学習システムデザインパターン • 2021年5月17日発売 • https://www.amazon.co.jp/dp/4798169447/ • 機械学習と銘打ってるのに
KubernetesとIstioに詳しくなれる一冊です！ • Amazon.co.jp 情報学・情報科学部門　 1位！人工知能部門　1位！ • 増刷決定！ • 韓国語版と中国語版（台湾）も出るらしい！

今日話すこと • 機械学習の開発をテストする

機械学習のプログラミングの課題 • 機械学習はプログラミングとデータによって開発する。 • つまりプログラミングとデータが正しくないと機械学習のモデルも正しくなくなる。 • しかし機械学習のモデルの正確さを開発中に評価することは難しい。データ分析、取得前処理学習
評価リリース例：リリース後にデータが間違っていることが判明データまで戻る

「学習を自動化したい」は簡単ではない • 研究、開発中のコード＝毎日読んで書くコード。＝一箇所修正して依存箇所を直すことは容易。 • 自動実行するコード＝毎日実行するけど、毎日読まないし書かないコードになる。＝忘れてしまうコードになる。＝開発時に記録されていない情報は失われる。
◦ 失われるものの例：学習時に使ったデータ。特に中間データ

モデル開発のテスト • ソフトウェア開発ではプログラムを通してロジックをテストする • 機械学習ではコードを通してデータで確率をテストする YES or NO 0 ~
1 ソフトウェア開発のテスト機械学習のテスト入力正解出力 assert 関数指標推論 evaluate モデル関数テスト通過率：95/100 Accuracy：99% Precision：95% Recall：60% 7 データ

モデル開発のテスト • ソフトウェア開発ではプログラムを通してロジックをテストする • 機械学習ではコードを通してデータで確率をテストする YES or NO 0 ~
1 ソフトウェア開発のテスト機械学習のテスト入力正解出力 assert 関数指標推論 evaluate モデル関数テスト通過率：95/100 Accuracy：99% Precision：95% Recall：60% 8 データ

「学習が正しく動いている」取得したデータが正しい → ←この処理が正しい動くモデルができてる → ←基準以上の評価評価と実用が乖離しない → 止めずに安定して
動かせるデータ分析、取得前処理学習評価リリース ←損失関数が下がる動く→

汎用的っぽい関数が汎用的とは限らない • 前処理は扱うデータに応じて書く必要がある。 ◦ 例：細長い画像が入る可能性のあるデータをどうリサイズ、クロップする？ ▪ パディングしてからリサイズ ▪
最初にリサイズ ▪ クロップしたリサイズ ▪ ある程度リサイズしてパディングしてリサイズ • Utilityとして作った前処理関数が汎用的に使えるとは限らない。 • Utilityの変更→他のモデル開発に影響。データ取得テンソル化リサイズクロップ標準化学習このあたりを汎用的に使う共通の関数にすることは多い

いろいろなリサイズリサイズリサイズリサイズリサイズパディングパディング

データに依存するならデータとともにテスト • ユニットテスト：個々のタスクをテストする ◦ 対象：コード品質やロジック • 接続テスト：少量データを用いた短い Epochで
学習パイプラインをテストする ◦ 対象：学習パイプラインとモデル開発 • 機械学習としてのテスト：テストデータでモデルを評価する ◦ 対象：モデルの品質 • 受け入れテスト：推論器の稼働をテストする ◦ 対象：本番システムデータ取得前処理学習評価リリース少量データ

データに依存するならデータとともにテスト • 接続テスト：少量データを用いた短い Epochで学習パイプラインをテストする ◦ 対象：学習パイプラインとモデル開発 ◦ サンプルデータでコードが動くことを
E2E にテストする ◦ 学習が進むこと（損失関数が下がること）を確認する ◦ 学習済みモデルを読み込んで評価コードが動くことをテストする ◦ 大量のGPUを使う前にコードをテストしたいデータ取得前処理学習評価リリース少量データ

ユニットテストの例 def resize_image( img: np.ndarray, width: int, height: int, )
-> np.ndarray: resize_img = cv2.resize(img, (width, height)) return resize_img a = np.random.randint(0, 255, (2, 4, 3)) @pytest.mark.parametrize( ("img", "width", "height"), [(a, 20, 30)], ) def test_resize_image( img: np.ndarray, width: int, height: int, ): resize_img = resize_image(img, width, height) assert resize_img.shape = (width, height, 3) • 普通のユニットテストを書く。

接続テストの例 # 仮のコードです def make_dataloader(data_path: str) -> DataLoader: return dataloader(data_path)
def train(model: nn.Module, epochs: int, trainloader: DataLoader) -> List[ﬂoat]: losses = [] for epoch in range(epochs): average_loss = train_once(model, trainloader) losses.append(average_loss) model.save() return losses def evaluate(model_path: str, testloader: DataLoader) -> List[ﬂoat]: predictor = Model(model_path) evaluations = predictor.evaluate(testloader) return evaluations • 少量データで動かす。 @pytest.mark.parametrize( (“model”, "train_path", “test_path” “epochs”), [(model, “/tmp/small_train/”, “/tmp/small_test/”, 10)], ) def test_train( model: nn.Module, train_path: str, test_path: str, epochs: int, ): trainloader = make_dataloader(train_path) testloader = make_dataloader(test_path) init_accuracy = evaluate(model, testloader) losses = train(model, epochs, trainloader) assert losses[0] > losses[-1] trained_accuracy = evaluate(model, testdata) assert init_accuracy < trained_accuracy

データの正しさを残す • 非構造化データの前処理や Augmentationが想定通りのアウトプットを出していることを網羅的にテストすることは難しいが、想定外のデータが混入することは避けたい。 • ランダムサンプリングになるが、 1st
epochで前処理された学習データだけ保存しておいて学習が異常なときに確認できるようにしておくだけでもトラブルシューティングに役立つ。前処理学習 1st epochのみ保存

DVCとCML • Data Version Control • データ分析や機械学習で使ったデータをバージョン管理する • Gitみたいに使う
• https://dvc.org/doc • Continuous Machine Learning • 機械学習のためのCI/CD • GitHub ActionとDVCと組み合わせてデータを管理したCI/CDが可能 • https://github.com/iterative/cml

DVCとCML データ取得前処理学習評価リリース少量データコード CI/CD

まとめ • 機械学習はデータに依存するため、データとともにテストする • 機械学習とプログラム両方のテストを書く • データの正しさを残す

宣伝 • MLOpsコミュニティを運営してます。 ◦ https://mlops.connpass.com/ • 毎月勉強会開催中！ ◦ 7/14はメルカリUSがKubeﬂow +
Polyaxonによる機械学習基盤を説明！ ◦ https://mlops.connpass.com/event/215133/ • MLOpsコミュニティ公式ツイッター ◦ @MlopsJ ◦ https://twitter.com/MlopsJ

Testing machine learning development

Testing machine learning development

shibuiwilliam

More Decks by shibuiwilliam

Other Decks in Technology

Featured

Transcript

機械学習の開発をテストする 2021/06/26 shibui yusuke

自己紹介 shibui yusuke • 自動運転スタートアップのティアフォー所属 • MLOpsエンジニア & インフラエンジニア &

本を出版しました！ • AIエンジニアのための機械学習システムデザインパターン • 2021年5月17日発売 • https://www.amazon.co.jp/dp/4798169447/ • 機械学習と銘打ってるのに

今日話すこと • 機械学習の開発をテストする

モデル開発のテスト • ソフトウェア開発ではプログラムを通してロジックをテストする • 機械学習ではコードを通してデータで確率をテストする YES or NO 0 ~

モデル開発のテスト • ソフトウェア開発ではプログラムを通してロジックをテストする • 機械学習ではコードを通してデータで確率をテストする YES or NO 0 ~

「学習が正しく動いている」取得したデータが正しい → ←この処理が正しい動くモデルができてる → ←基準以上の評価評価と実用が乖離しない → 止めずに安定して

汎用的っぽい関数が汎用的とは限らない • 前処理は扱うデータに応じて書く必要がある。 ◦ 例：細長い画像が入る可能性のあるデータをどうリサイズ、クロップする？ ▪ パディングしてからリサイズ ▪

いろいろなリサイズリサイズリサイズリサイズリサイズパディングパディング

データに依存するならデータとともにテスト • ユニットテスト：個々のタスクをテストする ◦ 対象：コード品質やロジック • 接続テスト：少量データを用いた短い Epochで

データに依存するならデータとともにテスト • 接続テスト：少量データを用いた短い Epochで学習パイプラインをテストする ◦ 対象：学習パイプラインとモデル開発 ◦ サンプルデータでコードが動くことを

ユニットテストの例 def resize_image( img: np.ndarray, width: int, height: int, )

接続テストの例 # 仮のコードです def make_dataloader(data_path: str) -> DataLoader: return dataloader(data_path)

DVCとCML • Data Version Control • データ分析や機械学習で使ったデータをバージョン管理する • Gitみたいに使う

DVCとCML データ取得前処理学習評価リリース少量データコード CI/CD

まとめ • 機械学習はデータに依存するため、データとともにテストする • 機械学習とプログラム両方のテストを書く • データの正しさを残す

宣伝 • MLOpsコミュニティを運営してます。 ◦ https://mlops.connpass.com/ • 毎月勉強会開催中！ ◦ 7/14はメルカリUSがKubeﬂow +