Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AWS Inferentiaに入門して 徳得を積む
Search
mu7889yoon / Yuta Nakamura
July 08, 2025
Programming
180
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
AWS Inferentiaに入門して 徳得を積む
mu7889yoon / Yuta Nakamura
July 08, 2025
More Decks by mu7889yoon / Yuta Nakamura
See All by mu7889yoon / Yuta Nakamura
今だから言える(?) Q Developer Pro のクレジットが神ってた話
mu7889yoon
0
120
API Gateway→Lambda→AgentCore を再考する
mu7889yoon
0
22
MCPで決済に楽にする
mu7889yoon
1
220
Lambdaを使い倒す
mu7889yoon
0
110
~Everything as Codeを諦めない~ 後からCDK
mu7889yoon
3
1.5k
Stately
mu7889yoon
1
160
AWS Neuron周辺のre:Cap
mu7889yoon
0
160
JAWS-UG大阪 忘年勉強会 FSF AWSあるある
mu7889yoon
0
170
[標準語ver]JAWS-UG-CDK支部 #22 大阪でもCDKしたいねん
mu7889yoon
0
40
Other Decks in Programming
See All in Programming
生成AI時代にこそ効くGo | Why Go Works in the Age of Generative AI
mom0tomo
8
3.2k
TSKaigi Night Talks 2026_TypeScriptでサプライチェーンの整合性を型に閉じ込める
geekplus_tech
0
340
CSC307 Lecture 17
javiergs
PRO
0
320
The NotImplementedError Problem in Ruby
koic
1
740
Hunting Vulnerabilities in Symfony with LLMs
vinceamstoutz
0
540
AI時代のUIはどこへ行く?その2!
yusukebe
21
7.1k
Javaの型とAI時代に型が大事な理由 / java types and type in AI era
kishida
2
130
Spring Security 実践 ─ GraphQL APIで実務に役立つ 認証・認可 を学ぶ
wagyu
0
220
[2026年度第1回ORセミナー] 計画最適化ベンチャーと競技プログラミング人材
terryu16
0
260
JavaDoc 再入門
nagise
0
330
さぁV100、メモリをお食べ・・・
nilpe
0
140
Signal Forms: Details & Live Coding @enterJS 2026 in Mannheim
manfredsteyer
PRO
0
110
Featured
See All Featured
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Java REST API Framework Comparison - PWX 2021
mraible
34
9.4k
Principles of Awesome APIs and How to Build Them.
keavy
128
18k
GitHub's CSS Performance
jonrohan
1033
470k
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
HTML-Aware ERB: The Path to Reactive Rendering @ RubyCon 2026, Rimini, Italy
marcoroth
1
180
Designing for Timeless Needs
cassininazir
1
250
For a Future-Friendly Web
brad_frost
183
10k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
280
The World Runs on Bad Software
bkeepers
PRO
72
12k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.9k
Transcript
JAWS-UG京都 AWS Summit Japan 2025 re:Cap LT大会 AWS Inferentiaに入門して 徳得を積む
中村 勇太 / mu7889yoon
経歴 2024年3月 大阪電気通信大学 卒業 2024年4月 株式会社シーズ 入社 2025年6月 Japan AWS
Jr. Champions 2025 好きなAWSサービス AWS Step Functions / Amazon Lightsail 中村 勇太 / mu7889yoon 2
AWS Inferentia is… - 低コストで高性能な推論を実現するために、AWSが独自開発したチップ - ざっくり言うとAWSが用意した機械学習モデルの推論の最適解 https://aws.amazon.com/jp/ai/machine-learning/inferentia/
(前までの) AWS Inferentia のイメージ - LLMモデルのアーキテクチャによって制限ありそう - LLMモデルのコンパイル大変そう https://pages.awscloud.com/summit-japan-2025-aws-expo-booth.html#aws-builders-fair
(Builders’ Fair訪問後の) AWS Inferentia のイメージ - LLMモデルのアーキテクチャによって制限ありそう → LlamaForCausalLM、MistralForCausalLMに対応 -
LLMモデルのコンパイル大変そう。 → 非MLエンジニアでもコンパイルできる仕組みを用意している。 → フレームワークによってはより簡単にコンパイル可能
EC2 Infでの推論を試す 1. インスタンス起動 2. vLLM + Neuron の Docker
ビルド → 約10分 3. モデルのダウンロード → 約2分(モデル次第) 4. モデルのコンパイル → 約10分(同上) 5. 🎊 Coding Time 🎉 https://aws.amazon.com/jp/blogs/machine-learning/serving-llms-using-vllm-and-amazon-ec2-instances-with -aws-ai-chips/
EC2 Infでの推論を試す 1. インスタンス起動 2. vLLM + Neuron の Docker
ビルド → 約10分 3. モデルのダウンロード → 約2分(モデル次第) 4. モデルのコンパイル → 約10分(同上) 5. 🎊 Coding Time 🎉 - EC2 Infインスタンス利用 1🉐ポイント https://aws.amazon.com/jp/blogs/machine-learning/serving-llms-using-vllm-and-amazon-ec2-instances-with -aws-ai-chips/
EC2 Infでの推論を試す 1. インスタンス起動 2. vLLM + Neuron の Docker
ビルド → 約10分 3. モデルのダウンロード → 約2分(モデル次第) 4. モデルのコンパイル → 約10分(同上) 5. 🎊 Coding Time 🎉 - EC2 Infインスタンス利用 1🉐ポイント https://aws.amazon.com/jp/blogs/machine-learning/serving-llms-using-vllm-and-amazon-ec2-instances-with -aws-ai-chips/ ここから🉐ポイントの香りがする
得得構成
得得構成 1. インスタンス起動 2. 🎊 Coding Time 🎉 - EC2
Infインスタンス利用 - us-east-1利用 - スポットインスタンス利用 - AMI利用によるDockerビルドのスキップ - AMI利用によるモデルのダウンロード・コンパイルのスキップ 🎊🎊🎊 5🉐ポイント 🎊🎊🎊
まとめ - Builders’ Fair 1を聞いたら 10が返ってくるような濃密な時間が過ごせる - Llama / Mistral
アーキテクチャの推論は、 EC2 Infインスタンスの利用が最適 - Qwenに対応すればよりHAPPY - 量子化モデルの使用は力およばず未検証 → さらに🉐になる可能性 - 専用の推論サーバーを持つ 嬉しさ - 小さいモデルにプログラム書かせるのも楽しい - ホームユースにも夢が広がる
参考ページなど AI チップ - Amazon Inferentia - AWS https://aws.amazon.com/jp/ai/machine-learning/inferentia/ Serving
LLMs using vLLM and Amazon EC2 instances with AWS AI chips https://aws.amazon.com/jp/blogs/machine-learning/serving-llms-using-vllm-and-am azon-ec2-instances-with-aws-ai-chips/ Neuron Community - Vol.2 (7/15 ハイブリット開催) https://aws.amazon.com/startups/events/neuron-community-02 Neuron Calculator — AWS Neuron Documentation (便利) https://awsdocs-neuron.readthedocs-hosted.com/en/latest/general/calculator/neuro n-calculator.html
ありがとうございました 「もっと🉐積めるよ!」があれば懇親会でお話ししましょう!
付録 : 初めの構成 VS 得得構成 共通条件 EC2 Inf2.8xlarge EBS 300
GB Out 100 GB / 月