推理速度比MHA更慢
KV Cache显存占用比MHA更大
所有Query头共享单一KV头可能导致模型表达能力下降,影响模型质量
MQA不支持Flash Attention优化
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题