NLPコロキウム20251022_超効率化への挑戦: LLM 1bit量子化のロードマップ

© 2025 Fujitsu Limited © 2025 Fujitsu Limited 超効率化への挑戦: LLM
1bit量子化へのロードマップ富士通人工知能研究所理研AIP 情報動力学チーム市川佑馬（Ichikawa Yuma）NLPコロキウム 10/22

© 2025 Fujitsu Limited 自己紹介 •市川佑馬, Ph.D.（@東大福島研究室2025年4月卒業） •所属: 富士通人工知能研究所（主任研究員）, 理研AIP（特任研究員）
• 卓越社会人制度: 博士課程在学中に入社（逆社会人博士？のような感じ…） •主な業務 • 富士通: LLM開発 (新アーキ, Pre-Train, RL), LLM圧縮 (量子化), • 理研AIP: 学習理論 (高次元統計), NEW: High-Dimensional Learning Dynamics of Quantized Models with Straight-Through Estimator, 2025/10/12. 日経ビジネス: 富士通, 博士課程進学と同時に雇用, 研究しながら働く二刀流人材に日経新聞: ｢働きながら博士進学｣に道富士通や島津製作所、新領域のコア人材に

© 2025 Fujitsu Limited 目次 • 大規模基盤モデルの圧縮 • 大規模基盤モデルの量子化ワークフロー •
LLM1bit量子化のための提案技術 • 我々のLLM1bit量子化ためのロードマップ以下プレスリリースの技術を部分的に公開！ • Quantization Error Propagation (QEP) • Quasi-Quantum Annealing (QQA) Controlling Continuous Relaxation for Combinatorial Optimizationの強化版 • まとめと展望 NeurIPS 2024 ICLR 2025 NeurIPS 2025

© 2025 Fujitsu Limited 大規模基盤モデル圧縮の重要性 •背景: 基盤モデルの急速な発展に伴い, モデル大規模化が進行 •課題点: 大規模化に伴い以下が懸念されている.
• 運用コストの肥大化: メモリ使用量と消費電力の増大. • ユーザービリティ低下: モデル大規模化に伴う推論速度低下. • エッジ適応の困難さ: GPUメモリ搭載量の限られた環境で動作は困難. •緩和方法: 量子化, 蒸留, 枝刈りなどの圧縮技術が注目されている. → 枝刈りより性能が高く, ユーザーの計算リソースと要望に手軽に対処可能な量子化（特にPTQ）に注目.

© 2025 Fujitsu Limited 基盤モデルの量子化 •基盤モデル量子化とは: 重み (W), 活性値 (A),
KVキャッシュ(KV)を低精度整数で表現し, メモリ使用量と転送量を減らすことで, 消費電力削減および推論高速化が可能. • Prefill: 演算が支配的 (Compute-bound), Decoding: メモリ帯域が支配的 (memory-bound) •極低ビット量子化: 量子化により, ロボットやIoTデバイスに基盤モデル搭載可能→ ロボットがLLMを搭載し意思決定を行う未来？？

© 2025 Fujitsu Limited 量子化の具体例 • 量子化:連続値（Float）を整数値（Int）に変換してメモリ使用量・計算効率を向上させる技術（e.g., float16 →
Int4） •具体例: （対称）線形量子化 • Encode: 𝑞 = clip round 𝑥 scale , 𝑞min , 𝑞max • Decode: ො 𝑥 = scale × 𝑞

© 2025 Fujitsu Limited 二種類の量子化手法（QATとPTQ） • Quantization Aware Training (QAT):
事前学習済みモデルの重みを使用せず, 量子化モデルをスクラッチから学習する方法. • 代表例: BitLLM, • 課題点: コストが高い, スケールアップが困難（最大30B程度） • 利点: 最初から量子化を考慮するため高精度なモデルが作成できる可能性あり. • Post-Training Quantization (PTQ): 事前学習済みモデルの重みを使用して, 量子化モデルを作成する方法. • 代表例: GPTQ, AWQ. • 課題点: QATと異なり事前学習済みモデルは量子化を考慮して学習されていない. そのため, QATの方がより性能が良いモデルが作れる可能性がある. • 利点: 手軽・コストが低い, 数百B級のモデルも量子化可能. 現在主流は, PTQ！

© 2025 Fujitsu Limited PTQの（自分流）ワークフロー STEP1 基盤モデルの中身を調べる STEP2 基盤モデルを分解する STEP3
重みと活性値の前処理をする STEP4 どのように量子化するかを決める STEP5 量子化を実行する STEP6 より速く推論できるようにする LLM作成のPre-Train→SFT→RLのワークフローと同様に, PTQにもワークフローがあり, どのプロセスも重要！皆好き勝手にいろいろな研究をしていて, こういうワークフローが量子化にはない...

© 2025 Fujitsu Limited STEP1: 基盤モデルの中身を調べる •モデルをロードして, 量子化戦略を考える！ •モデルの構造: Llama型
or PaLM型, SWA or Full Attention, RoPEの有無. • 重みや活性値の統計情報. • Per-Token, Per-Chanel (隠れ次元方向)の統計量: 尖度, レンジ, 標準偏差など. • 右図: 入力に近い線形層の重みの尖度 Llama型: 𝑦 = 𝑥 + MLP(𝑥 + Attn(𝑥)) PaLM型: 𝑦 = 𝑥 + Attn 𝑥 + MLP(𝑥) Full Attention SWA 外れ値！外れ値！

© 2025 Fujitsu Limited STEP2: 基盤モデルを分解する •PTQの目的: 事前学習済みモデルの「入出力関係」をできるだけ変えずに, 事前学習済みモデルを量子化する.
𝜺𝒈 = 𝔼𝒙 𝑫 𝒇 𝒙 , ෠ 𝒇 𝒙 ≈ ො 𝜺𝒈 = 𝟏 𝑴 ෍ 𝒎=𝟏 𝑴 𝑫(𝒇 𝒙𝒎 , ෠ 𝒇 𝒙𝒎 ) • 𝑥: 入力, 𝑓 ⋅ : 基盤モデル, መ 𝑓(⋅): 量子化済みモデル, 𝐷 ⋅,⋅ : 類似度関数. •課題点: モデルが大規模すぎて直接 Ƹ 𝜀𝑔 最小化で量子化は困難 → ො 𝜺𝒈 の直接最小化ではなく, 「部分問題」に分けて量子化を行う.

© 2025 Fujitsu Limited STEP2: 基盤モデルを分解する × 𝐿 Input Prompt
Output Text Transformer Block モデルの入出力の一致を目指す. ⚫ 高自由度→ 上手くやれば最も圧縮可能 ⚫ 量子化難度は高い（非線形変換あり） ⚫ 量子化時のメモリ使用量大 Input Activations Output Activations 各Blockの入出力の一致を目指す. ⚫ 中自由度 ⚫ 量子化難度は高い（非線形変換あり） ⚫ 量子化時のメモリ使用量は中 𝒒 = 𝑾𝒒 𝒙, 𝒌 = 𝑾𝒌 𝒙, 𝒗 = 𝑾𝒗 𝒙 𝒉 = 𝑾𝒉 (𝑺 ⊙ 𝒗) 𝒛 = 𝑾𝒖𝒑 𝒉 Input Activations Output Activations 各線形層の入出力の一致を目指す. ⚫ 低自由度 ⚫ 非線形変換がないため量子化は容易 ⚫ 量子化時のメモリ使用量は小さい ⚫ PTQの主流（e.g., GPTQ, AWQ） Global PTQ Block-Wise PTQ Layer-Wise PTQ Q: 独立に分解しても問題ない…？？→QEP

© 2025 Fujitsu Limited STEP3: 重みと活性値の前処理をする •重みと活性値は外れ値だらけ（LLM.int8(), SmoothQuant, QuIP,…） •目的:
Smooth and Flatten the hard-to-quantize tensors!! •種類: Systematic Outlier (KQV, Up_proj)とMassive Outliers (Down_proj) • 除去するとLLMの性能が落ちてしまう意味のある異常値 [Sun+] [Sun+] Massive Activations in Large Language Models, Sun et al., https://arxiv.org/abs/2402.17762

© 2025 Fujitsu Limited STEP3: 重みと活性値の前処理をする記法: 𝑋 ∈ ℝ𝐿×𝐶in,
𝑊 ∈ ℝ𝐶out×𝐶in, 𝐵. •Shifting (OmniQuant, LRQuant, DESV, WKVQuant,…) 𝑌 = 𝑋𝑊 + 𝐵 = 𝑋 − 1𝐿 ⊤𝐴 𝑊 + 𝐴𝑊 + 𝐵 , •Scaling (SmoothQuant, FPTQ, CBQ, QoQ, I-LLM, AQAS, QQQ,…): 𝑌 = 𝑋𝑊 = 𝑋 diag 𝑠1 , … , 𝑠𝐶in −1 diag 𝑠1 , … , 𝑠𝐶in 𝑊 •Rotation (QuoRot, DuQuant, SpinQuant, …) 𝑌 = 𝑋𝑊 = 𝑋O O⊤𝑊 前処理は決め打ち（制約付き）勾配法で最適化 e.g., 𝑠𝑗 = max 𝑋:,𝑗 𝛼 max 𝑊:,𝑗 1−𝛼

© 2025 Fujitsu Limited STEP4: どのように量子化するかを決める •重み𝑾 ∈ ℝ𝑪𝒐𝒖𝒕×𝑪𝒊𝒏,活性値𝑿 ∈
ℝ𝑳×𝑪𝒊𝒏をどのように離散化するか？ → これらを近似する量子化表現（Format） ෡ 𝑊, ෠ 𝑋をどう選ぶか. • 注意点①: FP16のパラメータを 𝑶(𝐦𝐢𝐧 𝑪𝒐𝒖𝒕 , 𝑪𝒊𝒏 , 𝑳 𝟐) 使うと圧縮効率が悪い. • 注意点②: 量子化表現の最適化が容易である（STEP5に関係） • 注意点③: 量子化誤差の減少のみならず推論も速くなる（STEP6に関係） •具体例: 一様量子化, 注意点①,②,③をクリア.

© 2025 Fujitsu Limited STEP4: 極低ビットの量子化表現 •OneBit: 1bit-PTQ 先駆的研究（注意点1〇, 注意点2〇,
注意点3〇） ෡ 𝑊 = 𝐷𝑎 𝑄±1 𝐷𝑏 , 𝐷𝑎 = 𝑑𝑖𝑎𝑔 𝑎 , 𝐷𝑏 = 𝑑𝑖𝑎𝑔 𝑏 , 𝑄± ∈ {±1}𝑐𝑜𝑢𝑡×𝑐𝑖𝑛 •DBF: Factorized Binary（注意点1〇, 注意点2△, 注意点3〇） ෡ 𝑊 = 𝐷𝑎 𝐴± 𝐷𝑚 𝐵± 𝐷𝑏 , 𝐴 ∈ {±1}𝑐out×𝑘, 𝐵± ∈ {±1}𝑘×𝑐in ⚫Others QBB: 1Bit+Vectorの加算基底, BTC-LLM: QBB+中心化, Ours: ??? OneBit DBF

© 2025 Fujitsu Limited STEP4.5: Mixed Precision (Layer-Wise Precision) •量子化の際の精度の割り当てを決定する.
•方法1: 何らかの指標で性能が大幅悪化したら精度を上げる（FlattenQuant, QFeM）. •方法2: 最初の層の量子化誤差が伝搬し, 性能が悪化するため最初の層だけ, 高精度にする（AsymKV）. •方法3: 最後の数層は高精度にする（Ours） INT8 INT2 INT4 INT8 … Input Transformer

© 2025 Fujitsu Limited STEP4.5: Mixed Precision (Element-Wise Precision) •量子化対象の行列（Tensor）を外れ値（Sparse）と通常部
（dense）に分解する. 外れ値は高精度で保持（KVQuant, GEAR, QAO, AlignedKV, SpQR） 𝑋 = 𝑋dense + 𝑋sparse , 𝑋sparse = 𝑋𝑖𝑗 1 𝑋𝑖𝑗 >𝜏 𝑋sparse は外れ値の割合𝑝%を検出し, 疎行列にする. ＋ = Dense Sparse

© 2025 Fujitsu Limited STEP4.5: Mixed Precision (Channel and Token)
•Channel-Wise Precision: 特定チャネルを高精度にして, 外れ値問題を軽減（LLM.int8(), QUIK, Atom, FMPQ） •Token-Wise Precision: トークンの重要度や文脈で精度を配分, 主に KV chashe（ZipCache, MiKV） • Attention Sinks （冒頭のToken, Attentionの受け皿）と特定の特殊トークンのみ高精度で保持（SKVQ, KVQuant, KIVI, GEAR, BiSup）. Channel Token Channel Token Attention Sink

© 2025 Fujitsu Limited STEP4.5: Granularity •量子化の単位（Granularity）を決める • Group単位の量子化で外れ値問題を削減（GPTQ, ZeroQuant,
ZeroQuant-V2, …）. •同じようなRangeを持つ列をCluster化（PRTQ, Atom, COMET） •KV Cashe Quantizationの場合: Group Size=Attention Head数, Keyだけ Channel-Wise（KIVI, AsymKV, GEAR） Channel/Token Group Per-Tensor Per-Channel/Token Per-Group

© 2025 Fujitsu Limited STEP5: 量子化を実行する •選択した量子化表現のパラメータを最適化する. •具体例: 対称量子化 •
Encode: 𝑞 = clip round 𝑥 Δ , −𝛼, 𝛼 • Decode: ො 𝑥 = Δ × 𝑞 •最適化方法: パラメータ 𝛼, Δを以下で決定する（最適化が容易） 𝛼 = max 𝑥min , 𝑥max , Δ = 𝛼 2𝑏−1−1 , 𝑏: Bit数.

© 2025 Fujitsu Limited STEP5: 極低ビットの量子化を実行する •極低ビットの量子化表現は最適化が困難. •具体例: DBFの例（Probably an
NP hard Problem） ෡ 𝑊 = 𝐷𝑎 𝐴± 𝐷𝑚 𝐵± 𝐷𝑏 , 𝐴 ∈ {±1}𝑐out×𝑘, 𝐵± ∈ {±1}𝑘×𝑐in •最適化方法（Heuristics Algorithm）: 𝐴 = 𝐷𝑎 𝐴±1 𝐷𝑚1 ,𝐵 = 𝐷𝑚2 𝐵±1 𝐷𝑏 単位で, 𝐴, 𝐵をADMMで交互最適化. min 𝐴 ||𝐴𝐵 − 𝑊||𝐹 , 𝑠. 𝑡. 𝐴 = 𝐷𝑎 𝐴±1 𝐷𝑚1 → 低ビットの量子化では「強いHeuristics」が重要！

© 2025 Fujitsu Limited STEP5.5: 大きい単位で量子化を実行する •Layer-Wise PTQを行った後に, Block-Wise or
Global PTQで量子化パラメータをFine-Tuningまたは蒸留する（QBB, DBF, PV-Tuning,…） Globalな情報より量子化パラメータが最適化 •方法は主に三通り • 連続パラメータのみ最適化（DBFの場合） • 連続離散パラメータを同時に最適化（離散はSTEを使用） • 連続パラメータと離散パラメータの交互最適化 𝑭𝒍 ෢ 𝑭𝒍

© 2025 Fujitsu Limited STEP6: より速く推論できるようにする量子化表現を効率的に計算して動かす（カーネル作成） ⚫行列同士の精度を合わせて同じ精度の行列積で表す. ⚫SmoothQuant: 活性値の外れ値を重みに部分的に移行して全てINT8のGEMM化.
⚫AWQ: 重要なChannelを高精度にするのではなく前処理で除去して, 全てINT4化. ⚫カーネル融合: 本来別々の処理を一つのカーネルにまとめる. ⚫MARLIN: INT4 Unpacking+Dequant+Matmulを融合 ⚫FlatQuant: 前処理 (アフィン変換)に関する全処理を単一カーネルに融合 ⚫静的前処理: FP16重みを前処理後の重みに事前に変換する. ⚫SpinQuant: 量子化, 推論前に𝑊 ← 𝑂⊤𝑊と変換する.

© 2025 Fujitsu Limited LLM 1bit量子化のためのロードマップ（一部） STEP1 基盤モデルの中身を調べる STEP2 基盤モデルを分解する
STEP3 重みと活性値の前処理をする STEP4 どのように量子化するかを決める STEP5 量子化を実行する STEP6 より速く推論できるようにする QEP+α QQA+α Last2 FP16+?? ?? FJコンピ研の関係者の方々ありがとうございました。勝負は, 1bit由来の量子化誤差蓄積をどれだけ抑えられるか… 公開できる部分だけ公開します…

© 2025 Fujitsu Limited Quantization Error Propagation STEP2: 「基盤モデルを分解する」を再考
STEP1 基盤モデルの調査 STEP2 基盤モデルの分解 STEP3 重みと活性値の前処理 STEP4 量子化表現の選択 STEP5 量子化の実行 STEP6 量子化表現の高速化

© 2025 Fujitsu Limited Layer-Wise PTQとQEP •Layer-Wise PTQの場合は, 入力に近い層から次の最適化問題を解き量子化を行う（𝑋𝑙
: FP16の重み {𝑊𝑙 }𝑙=1 𝑙−1を用いて作られた活性値） min ෡ 𝑊𝑙 ||𝑊𝑙 𝑋𝑙 − ෡ 𝑊𝑙 𝑋𝑙 ||𝐹 2 → 独立な部分問題を解いているので, 誤差が𝒪(𝑐𝐿)で累積（QEP） 𝑾𝟏 𝑾𝟐 𝑾𝒍−𝟏 𝑾𝒍 … 𝑳 = ෍ 𝒍 ||𝑾𝒍 − ෢ 𝑾𝒍 ||𝑭 𝟐

© 2025 Fujitsu Limited Layer-Wise PTQとQEP •Layer-Wiseの最適化の構造を保持したまま次の最適化問題を解く. 𝐦𝐢𝐧 ෢ 𝑾𝒍
||𝑾𝒍 ∗ 𝜶𝒍 𝑿𝒍 − ෢ 𝑾𝒍 𝑿𝒍 ||𝑭 𝟐 𝑾𝒍 ∗ 𝜶𝒍 = 𝑾𝒍 + 𝜶𝒍 𝑾𝒍 𝜹𝒍 ෡ 𝑿𝒍 ⊤ ෡ 𝑯𝒍 −𝟏. 𝜹𝒍 = 𝑿𝒍 − ෡ 𝑿𝒍 : 量子化誤差, 𝛼𝑙 : 伝搬強度. → 完全独立ではなく, 前の部分問題の量子化誤差が伝搬される. 𝑾𝟏 … ෢ 𝑾𝟏 … ෢ 𝑾𝟐 𝑾𝟐 ෢ 𝑾𝟐 𝑾𝟑 𝑾𝟐 ∗ 𝜹𝟏 = 𝑿𝟏 − ෡ 𝑿𝟏 𝑿𝟏 = 𝝈 𝑾𝟏 𝑿𝟎 ෡ 𝑿𝟏 = 𝝈(෢ 𝑾𝟏 ෡ 𝑿𝟎 ) 𝑾𝟑 ∗ ෢ 𝑾𝑳 𝑾𝑳 𝑾𝑳 ∗

© 2025 Fujitsu Limited Layer-Wise PTQとQEP •Theorem (Informal, QEP): Data
𝑋 ∈ ℝ𝑛×𝑚に対して以下が成り立つ: ||𝒇 𝑿 − ෠ 𝒇𝐐𝐄𝐏 𝑿 ||𝑭 ≤ ||𝒇 𝑿 − ෠ 𝒇𝐁𝐀𝐒𝐄 𝑿 ||𝑭 𝒇𝜽 𝑿 = 𝝈𝑳 𝑾𝑳 𝝈𝑳−𝟏 𝑾𝑳−𝟏 ⋯ 𝝈𝟐 𝑾𝟐 𝝈 𝑾𝟏 𝑿 ⋯ . •Results: QEPにより主要なLayer-Wise PTQ全ての性能が向上. 特に低ビット（INT2）の性能が大幅向上！理由: 極低ビットだと誤差増幅も顕著であり差が出やすい.

© 2025 Fujitsu Limited Quasi-Quantum Annealing STEP5: 「量子化を実行する」を強化 STEP1 基盤モデルの調査
STEP2 基盤モデルの分解 STEP3 重みと活性値の前処理 STEP4 量子化表現の選択 STEP5 量子化の実行 STEP6 量子化表現の高速化

© 2025 Fujitsu Limited 低ビット量子化に現れる組み合わせ最適化問題 •組み合わせ最適化問題: 𝐦𝐢𝐧 𝒙∈ 𝟎,𝟏 𝒏
𝒇 𝒙; 𝑪 , 𝒇: 𝓧 𝑪 → ℝ. 𝐶 ∈ 𝒞: 問題を特徴づけるパラメータ, e.g., Graph 𝐺 = (𝑉, 𝐸). 大規模化すると組み合わせ爆発により解くのが困難低bit量子化に現れる組み合わせ最適化問題 •極低ビットの量子化表現の最適化（e.g., DBF） •Global PTQとBlock Wise PTQに現れる非線形組み合わせ最適化両者も大規模かつ複雑な問題だが上手く解ければ大幅に性能が向上する. 大規模・非線形に対応可能な強いHeuristicsが重要 →Quasi-Quantum Annealing（QQA）

© 2025 Fujitsu Limited Quasi-Quantum Annealing QQAの詳細（並列化や他のTipsは論文参照） • 離散最適化問題 min
𝑥∈ 0,1 𝑛 𝑓 𝑥; 𝐶 を変換: 𝐦𝐢𝐧 𝒘∈ ℝ𝒏 𝒇 𝝈 𝒘 ; 𝑪 + 𝜸𝒔 𝝈 𝒘 , 𝒔 𝝈 𝒘 = σ𝒊=𝟏 𝒏 𝟏 − 𝟐𝝈 𝒘𝒊 − 𝟏 𝟐 , element-wise map 𝜎: ℝ𝑛 → 0, 1 𝑛 → 機械学習的視点: 組み合わせ最適化問題を「教師なしマルチラベル分類問題」として考える. その際に「Roundingの方法」も学習する. • 𝛾を負値から正値にAnnealingしながらOptimizerで𝑤を最適化 • 利点: • 𝑤に対してGPUを有効活用したOptimizerが適用可能. • 𝛾 → +∞で元の問題へ: 緩和ギャップがなくなる. • 𝑓(⋅)は非線形関数でも問題ない（適用可能）

© 2025 Fujitsu Limited Quasi-Quantum Annealing 結果（Maximum Independent Set Problems,
PQQAはQQAの並列版） •評価指標 ApR: KaMIS (MIS solver)に対する性能, 高いほど性能が良い. •結果: 全ての問題で最高性能, 特に大規模問題に強い. → 極低ビット量子化における最適化パートが強化可能！ Google Deepmind

© 2025 Fujitsu Limited まとめと展望まとめ • PTQワークフローが大切, 全STEPが量子化モデルの性能に大きく影響. •
LLM量子化は, 機械学習, 離散最適化, 情報理論, HPC…など様々な観点が重要！ →だからこそめちゃめちゃ面白い！！展望 • 「正直, なぜこんなに圧縮できるのかわからない」ため圧縮限界の理論をしたい. • 極低ビット量子化技術を展開し, エッジAI開発を世界的に牽引する. （ロボットに量子化LLMを入れて遊びたい…）

© 2025 Fujitsu Limited 最後にインターン募集中: 1-on-1 mtg or [email protected]にメールでもOK
• LLM圧縮: さらなる圧縮を目指して絞れるだけ一緒に絞りましょう！ • LLM開発: Data作成, Pre-train, Mid-train, Post-trainなど…あと基礎研究的なこともいま、富士通のAIが熱い！！一緒に暴れましょう！富士通とNVIDIA、戦略的協業を拡大し、AIエージェントを統合したフルスタックAIインフラで産業変革を加速

NLPコロキウム20251022_超効率化への挑戦: LLM 1bit量子化のロードマップ

NLPコロキウム20251022_超効率化への挑戦: LLM 1bit量子化のロードマップ

Other Decks in Technology

Featured

Transcript