一般情况下,我们聊到“大模型的量化”,想到的大概率是“把FP16转成INT8或INT4,从而降低显存、加速推理”。其实我觉得工程上没毛病,因为很少有人会去探索啥玩意是量化,但你要是放在算法岗的面试上,这样通常是不够的。面试官往往会继续追问:精度明明降低了,模型为什么还能正常工作?什么时候量化会失效?如果这时答不上来,基本就已经失分了。(我的答案放在文末)要把这个问题讲透,可以换一种更有层次的表达方式,从“是什么”到“为什么”,再到“什么时候不行”和“怎么选方案”,逐步展开。首先,从本质上看,量化并不复杂,它做的事情就是用更少的比特去近似表达原本的高精度参数。原本一个FP16权重用16bit表示...