知識蒸留(knowledge distillation) 大きな教師モデルの出力を小さな生徒モデルが真似る 低ランク近似の図引用元: https://dustinstansbury.github.io/theclevermachine/svd-data-compression 浮動小数点数の図引用元: https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/fp8_primer.html 0.395264 0.375