Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SSII2025 [OS1] LLM/VLMのエッジ推論に向けて

SSII2025 [OS1] LLM/VLMのエッジ推論に向けて

More Decks by 画像センシングシンポジウム

Transcript

  1. 速度・精度トレードオフ 図引用元:YOLOv3: An Incremental Improvement [Joseph Redmon+, arXiv2018] https://arxiv.org/abs/1804.02767 関連研究:Speed/accuracy

    trade-offs for modern convolutional object detectors [Jonathan Huang+, CVPR 2017] https://arxiv.org/abs/1611.10012 できるだけ精度を維持したまま 高速化・軽量化したい
  2. 軽量化の種類 枝刈り(刈り込み、pruning) 重要性の低い重み・ニューロン等を除去 量子化(低ビット化、quantization) 重み等の数値の重要性の低いビットを除去 分解・変換 分解・変換を介して重要性の低い要素を除去 例:低ランク近似, FFT, DCT

    知識蒸留(knowledge distillation) 大きな教師モデルの出力を小さな生徒モデルが真似る 低ランク近似の図引用元: https://dustinstansbury.github.io/theclevermachine/svd-data-compression 浮動小数点数の図引用元: https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/fp8_primer.html 0.395264 0.375
  3. 講演者紹介 エッジLLMハードウェアの問題 ~そして私たちに何ができるか~ 吉岡 健太郎 氏 (慶應義塾大学) 量子化手法の概要とエッジ開発における課題 亀澤 諒亮

    氏 (GO株式会社) PFNにおけるSmall Language Modelの開発 鈴木 脩司 氏 (株式会社Preferred Networks/株式会社Preferred Elements)