AWS Inferentiaに入門して徳得を積む

JAWS-UG京都 AWS Summit Japan 2025 re:Cap LT大会 AWS Inferentiaに入門して徳得を積む
中村勇太 / mu7889yoon

経歴 2024年3月大阪電気通信大学卒業 2024年4月株式会社シーズ入社 2025年6月 Japan AWS
Jr. Champions 2025 好きなAWSサービス AWS Step Functions / Amazon Lightsail 中村勇太 / mu7889yoon 2

AWS Inferentia is… - 低コストで高性能な推論を実現するために、AWSが独自開発したチップ - ざっくり言うとAWSが用意した機械学習モデルの推論の最適解 https://aws.amazon.com/jp/ai/machine-learning/inferentia/

（前までの） AWS Inferentia のイメージ - LLMモデルのアーキテクチャによって制限ありそう - LLMモデルのコンパイル大変そう https://pages.awscloud.com/summit-japan-2025-aws-expo-booth.html#aws-builders-fair

（Builders’ Fair訪問後の） AWS Inferentia のイメージ - LLMモデルのアーキテクチャによって制限ありそう → LlamaForCausalLM、MistralForCausalLMに対応 -
LLMモデルのコンパイル大変そう。 → 非MLエンジニアでもコンパイルできる仕組みを用意している。 → フレームワークによってはより簡単にコンパイル可能

EC2 Infでの推論を試す 1. インスタンス起動 2. vLLM + Neuron の Docker
ビルド → 約10分 3. モデルのダウンロード → 約2分(モデル次第) 4. モデルのコンパイル → 約10分(同上) 5. 🎊 Coding Time 🎉 https://aws.amazon.com/jp/blogs/machine-learning/serving-llms-using-vllm-and-amazon-ec2-instances-with -aws-ai-chips/

ビルド → 約10分 3. モデルのダウンロード → 約2分(モデル次第) 4. モデルのコンパイル → 約10分(同上) 5. 🎊 Coding Time 🎉 - EC2 Infインスタンス利用 1🉐ポイント https://aws.amazon.com/jp/blogs/machine-learning/serving-llms-using-vllm-and-amazon-ec2-instances-with -aws-ai-chips/

ビルド → 約10分 3. モデルのダウンロード → 約2分(モデル次第) 4. モデルのコンパイル → 約10分(同上) 5. 🎊 Coding Time 🎉 - EC2 Infインスタンス利用 1🉐ポイント https://aws.amazon.com/jp/blogs/machine-learning/serving-llms-using-vllm-and-amazon-ec2-instances-with -aws-ai-chips/ ここから🉐ポイントの香りがする

得得構成

得得構成 1. インスタンス起動 2. 🎊 Coding Time 🎉 - EC2
Infインスタンス利用 - us-east-1利用 - スポットインスタンス利用 - AMI利用によるDockerビルドのスキップ - AMI利用によるモデルのダウンロード・コンパイルのスキップ 🎊🎊🎊 5🉐ポイント 🎊🎊🎊

まとめ - Builders’ Fair 1を聞いたら 10が返ってくるような濃密な時間が過ごせる - Llama / Mistral
アーキテクチャの推論は、 EC2 Infインスタンスの利用が最適 - Qwenに対応すればよりHAPPY - 量子化モデルの使用は力およばず未検証 → さらに🉐になる可能性 - 専用の推論サーバーを持つ嬉しさ - 小さいモデルにプログラム書かせるのも楽しい - ホームユースにも夢が広がる

参考ページなど AI チップ - Amazon Inferentia - AWS https://aws.amazon.com/jp/ai/machine-learning/inferentia/ Serving
LLMs using vLLM and Amazon EC2 instances with AWS AI chips https://aws.amazon.com/jp/blogs/machine-learning/serving-llms-using-vllm-and-am azon-ec2-instances-with-aws-ai-chips/ Neuron Community - Vol.2 (7/15 ハイブリット開催) https://aws.amazon.com/startups/events/neuron-community-02 Neuron Calculator — AWS Neuron Documentation (便利) https://awsdocs-neuron.readthedocs-hosted.com/en/latest/general/calculator/neuro n-calculator.html

ありがとうございました「もっと🉐積めるよ！」があれば懇親会でお話ししましょう！

付録 : 初めの構成 VS 得得構成共通条件 EC2 Inf2.8xlarge EBS 300
GB Out 100 GB / 月

AWS Inferentiaに入門して徳得を積む

AWS Inferentiaに入門して徳得を積む

mu7889yoon / Yuta Nakamura

More Decks by mu7889yoon / Yuta Nakamura

Other Decks in Programming

Featured

Transcript

JAWS-UG京都 AWS Summit Japan 2025 re:Cap LT大会 AWS Inferentiaに入門して徳得を積む

経歴 2024年3月大阪電気通信大学卒業 2024年4月株式会社シーズ入社 2025年6月 Japan AWS

AWS Inferentia is… - 低コストで高性能な推論を実現するために、AWSが独自開発したチップ - ざっくり言うとAWSが用意した機械学習モデルの推論の最適解 https://aws.amazon.com/jp/ai/machine-learning/inferentia/

（前までの） AWS Inferentia のイメージ - LLMモデルのアーキテクチャによって制限ありそう - LLMモデルのコンパイル大変そう https://pages.awscloud.com/summit-japan-2025-aws-expo-booth.html#aws-builders-fair

（Builders’ Fair訪問後の） AWS Inferentia のイメージ - LLMモデルのアーキテクチャによって制限ありそう → LlamaForCausalLM、MistralForCausalLMに対応 -

EC2 Infでの推論を試す 1. インスタンス起動 2. vLLM + Neuron の Docker

EC2 Infでの推論を試す 1. インスタンス起動 2. vLLM + Neuron の Docker

EC2 Infでの推論を試す 1. インスタンス起動 2. vLLM + Neuron の Docker

得得構成

得得構成 1. インスタンス起動 2. 🎊 Coding Time 🎉 - EC2

まとめ - Builders’ Fair 1を聞いたら 10が返ってくるような濃密な時間が過ごせる - Llama / Mistral

参考ページなど AI チップ - Amazon Inferentia - AWS https://aws.amazon.com/jp/ai/machine-learning/inferentia/ Serving

ありがとうございました「もっと🉐積めるよ！」があれば懇親会でお話ししましょう！

付録 : 初めの構成 VS 得得構成共通条件 EC2 Inf2.8xlarge EBS 300

AWS Inferentiaに入門して 徳得を積む

AWS Inferentiaに入門して 徳得を積む

More Decks by mu7889yoon / Yuta Nakamura

Other Decks in Programming

Featured

Transcript

AWS Inferentiaに入門して徳得を積む

AWS Inferentiaに入門して徳得を積む