SSII2025 [OS1] LLM/VLMのエッジ推論に向けて

LLM/VLMのエッジ推論に向けて進矢陽介（センスタイムジャパン）

軽量化の重要性自動運転推論時間が1秒の場合、時速60kmの車が約17m進む → 危険スマートフォン（RTX 5090を添えて） 2kg：重い 50万円：高い
→ 買わない・売れない RTX 5090画像引用元： https://www.youtube.com/watch?v=k82RwXqZHY8

速度・精度トレードオフ図引用元：YOLOv3: An Incremental Improvement [Joseph Redmon+, arXiv2018] https://arxiv.org/abs/1804.02767 関連研究：Speed/accuracy
trade-offs for modern convolutional object detectors [Jonathan Huang+, CVPR 2017] https://arxiv.org/abs/1611.10012 できるだけ精度を維持したまま高速化・軽量化したい

軽量化の種類枝刈り（刈り込み、pruning）重要性の低い重み・ニューロン等を除去量子化（低ビット化、quantization）重み等の数値の重要性の低いビットを除去分解・変換分解・変換を介して重要性の低い要素を除去例：低ランク近似, FFT, DCT
知識蒸留（knowledge distillation）大きな教師モデルの出力を小さな生徒モデルが真似る低ランク近似の図引用元： https://dustinstansbury.github.io/theclevermachine/svd-data-compression 浮動小数点数の図引用元： https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/fp8_primer.html 0.395264 0.375

講演者紹介エッジLLMハードウェアの問題～そして私たちに何ができるか～吉岡健太郎氏（慶應義塾大学）量子化手法の概要とエッジ開発における課題亀澤諒亮
氏（GO株式会社） PFNにおけるSmall Language Modelの開発鈴木脩司氏（株式会社Preferred Networks/株式会社Preferred Elements）

SSII2025 [OS1] LLM/VLMのエッジ推論に向けて

SSII2025 [OS1] LLM/VLMのエッジ推論に向けて

画像センシングシンポジウム PRO

More Decks by 画像センシングシンポジウム

Featured

Transcript

LLM/VLMのエッジ推論に向けて進矢陽介（センスタイムジャパン）

軽量化の重要性自動運転推論時間が1秒の場合、時速60kmの車が約17m進む → 危険スマートフォン（RTX 5090を添えて） 2kg：重い 50万円：高い

速度・精度トレードオフ図引用元：YOLOv3: An Incremental Improvement [Joseph Redmon+, arXiv2018] https://arxiv.org/abs/1804.02767 関連研究：Speed/accuracy

講演者紹介エッジLLMハードウェアの問題～そして私たちに何ができるか～吉岡健太郎氏（慶應義塾大学）量子化手法の概要とエッジ開発における課題亀澤諒亮

SSII2025 [OS1] LLM/VLMのエッジ推論に向けて

SSII2025 [OS1] LLM/VLMのエッジ推論に向けて

画像センシングシンポジウム PRO

More Decks by 画像センシングシンポジウム

Featured

Transcript

LLM/VLMのエッジ推論に向けて 進矢陽介（センスタイムジャパン）

軽量化の重要性 自動運転 推論時間が1秒の場合、 時速60kmの車が約17m進む → 危険 スマートフォン（RTX 5090を添えて） 2kg：重い 50万円：高い

速度・精度トレードオフ 図引用元：YOLOv3: An Incremental Improvement [Joseph Redmon+, arXiv2018] https://arxiv.org/abs/1804.02767 関連研究：Speed/accuracy

講演者紹介 エッジLLMハードウェアの問題 ～そして私たちに何ができるか～ 吉岡 健太郎 氏 （慶應義塾大学） 量子化手法の概要とエッジ開発における課題 亀澤 諒亮

LLM/VLMのエッジ推論に向けて進矢陽介（センスタイムジャパン）

軽量化の重要性自動運転推論時間が1秒の場合、時速60kmの車が約17m進む → 危険スマートフォン（RTX 5090を添えて） 2kg：重い 50万円：高い

速度・精度トレードオフ図引用元：YOLOv3: An Incremental Improvement [Joseph Redmon+, arXiv2018] https://arxiv.org/abs/1804.02767 関連研究：Speed/accuracy

講演者紹介エッジLLMハードウェアの問題～そして私たちに何ができるか～吉岡健太郎氏（慶應義塾大学）量子化手法の概要とエッジ開発における課題亀澤諒亮