各パッチでコサイン類似度(パッチ類似度の計算) →エントロピー計算 →エントロピーが最大化を目指す – パッチ類似度の分布を滑らかにする • 分布の多様性向上 62 PSAQ-ViT V2: Towards Accurate and General Data-Free Quantization for Vision Transformers
– シフトを強制的に0(対称量子化) – 適切なスケールとシフト値を調整(再学習) 80 青は切り捨て値 Q-HyViT: Post-Training Quantization of Hybrid Vision Transformers with Bridge Block Reconstruction for IoT Systems
• 共分散行列のランク(各トークンの特徴の個性) – 最初は各トークンの個性が強い→SAで似ているトークン同士の特徴を近似 • 学習によりトークンの特徴がグループ化 • グループ化でトークンの個性は弱くなる →共分散行列のランクが下がる • 共分散行列のランクが下がる →トークンのグループ化ができてる 139 The Garden of Forking Paths:∗Observing Dynamic Parameters Distribution in Large Language Models 共分散行列のランク 学習時間