面试讲清MHA/MQA/GQA的最短路径
刚把 MHA / MQA / GQA 这块重新手撕了一遍,发现面试最容易讲乱的点其实就两个:
1)三者后半段计算几乎一样(score→softmax→加权和),真正不同只在 QKV 的生成维度和 K/V 的共享方式。
2)推理成本核心看 KV cache:MHA 最大,MQA 最小,GQA 是折中。
我自己用一句话区分:
- MHA:每个头都有自己的 K/V,表达强但贵;
- MQA:所有头共享一组 K/V,最快最省;
- GQA:按组共享 K/V,性能和成本更平衡。
如果被追问工程落地,我会补一句:
“线上一般优先 GQA,不会一刀切 MQA;要结合延迟目标和精度回归来定组数。”
#AI面试问题分享# #Transformer#
1)三者后半段计算几乎一样(score→softmax→加权和),真正不同只在 QKV 的生成维度和 K/V 的共享方式。
2)推理成本核心看 KV cache:MHA 最大,MQA 最小,GQA 是折中。
我自己用一句话区分:
- MHA:每个头都有自己的 K/V,表达强但贵;
- MQA:所有头共享一组 K/V,最快最省;
- GQA:按组共享 K/V,性能和成本更平衡。
如果被追问工程落地,我会补一句:
“线上一般优先 GQA,不会一刀切 MQA;要结合延迟目标和精度回归来定组数。”
#AI面试问题分享# #Transformer#
全部评论
相关推荐
02-11 13:25
燕京理工学院 数据分析师
在笔试的大西瓜很矫健:校招数分不用想了,这经历和学历都不够用,大厂更别想,初筛都过不了,说点不好听的小厂数分都进不去(小厂也是假数分),要两个对口实习+3个项目(或者3+2),而且要有含金量才能补一点你的学历劣势。
建议刷实习,社招找数分,校招看运气,能入行业就行,可以运营转数分 点赞 评论 收藏
分享
点赞 评论 收藏
分享
