推論エンジンMAXの紹介

AI 2024.07.18 Ryosuke Kamesawa GO株式会社推論エンジンMAX by Modular

AI 2 Outline 01｜推論エンジン MAX 02｜Mojo言語 03｜まとめ

AI 3 01 推論エンジン MAX

AI 4 Modularが開発している推論エンジン - ✅ 速い（らしい） - ✅ Python &
C API - ✅ PyTorch & ONNXのモデルが実行可能 - ✅ 無償利用可（条件付きで商用利用含め） - ❌ CPU (x64, ARM) のみ（GPU対応版は未公開） - ❌ ソースコードは非公開 MAXとは

AI 5 - Chris LattnerがCEOしている会社 - LLVM (Clang), Swift を作ったげきつよ開発者
- GoogleではTensorFlowのディレクター - 今のところMAX, Mojo以外のプロダクトはなさそう - ビジネスモデルはよくわからない - 推論エンドポイントSaaS？ちなみにModularって？

AI 6 公式サイトでの記述どれくらい速い・・？ https://www.modular.com/max

AI 7 速そうだけどよくわからない（たぶんLLMでのベンチマーク） → 自分たちのユースケース(CV)で試してみる 1. MobileNetV2 2. MobileNetV3 (large)
3. EﬃcientNet Lite0 4. ResNet50 5. YOLOv8 segmentation どれくらい速い・・？

AI 8 ベンチマーク

AI 9 - AWS EC2 (c6i.4xlarge); Ubuntu22.04 - モデル実装 -
Torchvision: MobileNetV2/MobileNetV3/ResNet50 - Timm: EﬃcientNet Lite0 - Ultralytics: YOLOv8 - 100回推論するのにかかった時間を測定 - MAX (ONNX/torchscript) - ONNX runtime - PyTorch ベンチマーク環境・条件 https://github.com/emakryo/max-benchmark

AI 10 - 軽量CVモデルではMAXは速くない - EﬃcientNet Lite/MobileNetV2, 3 - ターゲットとしていないので最適化されていない？
- 比較的重いモデルでは同じくらいか多少速い - ResNet50/YOLOv8 - モデル入力はtorchscriptの方が多少速い場合が多い - MAXは初回のコンパイルが遅いベンチマーク結果まとめ

AI 11 02 Mojo言語

AI 12 Modularが開発しているプログラミング言語 MAXがMojoで実装されている - Python風の文法 - 静的型（型推論、ジェネリクス、トレイト） - コンパイル時定数
- オーナーシップとライフタイム - Pythonとの相互呼び出し - 拡張可能な最適化パス、アクセラレータ固有型（MLIR） Mojo言語

AI 13 サンプルコード

AI 14 AI技術スタックの複雑さの軽減、全体最適化モチベーション https://www.modular.com/blog/mojo-llvm-2023

AI 15 - 簡単な用途には使えるがエコシステムは未成熟 - パッケージマネージャーがない - 頑張れば、できないことは基本的にない - システムプログラミング言語（e.g.
C++）として設計されている - 使いこなす（最適化）にはMLIR dialectの知識が必要 - MLIR (Multi-Level Intermediate Representation) - LLVM IRの一般化 - MLIR dialect - LLVM IRにおける命令セットを拡張したもの - 言語におけるライブラリに近い使える？

AI 16 - Pythonの完全な置き換えにはならない - コンパイルが必要→遅いのでinteractiveな実行に不向き - CythonやC/C++での拡張モジュールの置き換えは可能 - Pythonに近い文法なのでとっつきやすいかも
- CUDAの置き換えがOSSとしてできれば Nvidia以外のGPUメーカーが参戦してくるかも流行る？

AI 17 MAX: ニューラルネットワーク推論エンジン - (今のところ）LLMでは速い、軽量モデルには不向き - ONNX, PyTorch (torchscript)
を実行できる Mojo: コンパイル可能なPython風プログラミング言語 - AIの技術スタックを統合、最適化（ができるポテンシャル） - 未成熟だが技術的には面白いまとめ

推論エンジンMAXの紹介

推論エンジンMAXの紹介

Ryosuke Kamesawa

More Decks by Ryosuke Kamesawa

Other Decks in Technology

Featured

Transcript

AI 2024.07.18 Ryosuke Kamesawa GO株式会社推論エンジンMAX by Modular

AI 2 Outline 01｜推論エンジン MAX 02｜Mojo言語 03｜まとめ

AI 3 01 推論エンジン MAX

AI 4 Modularが開発している推論エンジン - ✅ 速い（らしい） - ✅ Python &

AI 5 - Chris LattnerがCEOしている会社 - LLVM (Clang), Swift を作ったげきつよ開発者

AI 6 公式サイトでの記述どれくらい速い・・？ https://www.modular.com/max

AI 7 速そうだけどよくわからない（たぶんLLMでのベンチマーク） → 自分たちのユースケース(CV)で試してみる 1. MobileNetV2 2. MobileNetV3 (large)

AI 8 ベンチマーク

AI 9 - AWS EC2 (c6i.4xlarge); Ubuntu22.04 - モデル実装 -

AI 10 - 軽量CVモデルではMAXは速くない - EﬃcientNet Lite/MobileNetV2, 3 - ターゲットとしていないので最適化されていない？

AI 11 02 Mojo言語

AI 12 Modularが開発しているプログラミング言語 MAXがMojoで実装されている - Python風の文法 - 静的型（型推論、ジェネリクス、トレイト） - コンパイル時定数

AI 13 サンプルコード

AI 14 AI技術スタックの複雑さの軽減、全体最適化モチベーション https://www.modular.com/blog/mojo-llvm-2023

AI 15 - 簡単な用途には使えるがエコシステムは未成熟 - パッケージマネージャーがない - 頑張れば、できないことは基本的にない - システムプログラミング言語（e.g.

AI 16 - Pythonの完全な置き換えにはならない - コンパイルが必要→遅いのでinteractiveな実行に不向き - CythonやC/C++での拡張モジュールの置き換えは可能 - Pythonに近い文法なのでとっつきやすいかも

AI 17 MAX: ニューラルネットワーク推論エンジン - (今のところ）LLMでは速い、軽量モデルには不向き - ONNX, PyTorch (torchscript)