首页 > 试题广场 >

关于Transformer中的Multi-Query Att

[单选题]

关于Transformer中的Multi-Query Attention(MQA)，以下哪项是其主要缺点？

所有Query头共享单一KV头可能导致模型表达能力下降，影响模型质量

查看答案及解析

郑锦凡

MHA：每个参会者 (Query 头) 都有专属记录员 (Key/Value 头) 记录会议内容

MQA：所有参会者共享同一位记录员，大幅减少管理成本

MHA 中，每个头都要存自己的 K/V 缓存，32 个头就存 32 份

MQA 只存 1 份 K/V 缓存，直接把缓存体积降到 MHA 的 1/n_heads（如 1/32）

发表于 2026-05-01 12:24:48 回复(0)

提交观点

问题信息

大模型概念

难度：

1条回答 4收藏 29浏览

扫一扫，把题目装进口袋