首页 > 试题广场 >

关于Transformer中的Multi-Query Att

[单选题]
关于Transformer中的Multi-Query Attention(MQA),以下哪项是其主要缺点?
  • 推理速度比MHA更慢
  • KV Cache显存占用比MHA更大
  • 所有Query头共享单一KV头可能导致模型表达能力下降,影响模型质量
  • MQA不支持Flash Attention优化
MHA:每个参会者 (Query 头) 都有专属记录员 (Key/Value 头) 记录会议内容
MQA:所有参会者共享同一位记录员,大幅减少管理成本
MHA 中,每个头都要存自己的 K/V 缓存,32 个头就存 32 份
MQA 只存 1 份 K/V 缓存,直接把缓存体积降到 MHA 的 1/n_heads(如 1/32)
发表于 2026-05-01 12:24:48 回复(0)