快手后端ai agent算法面经分享
继续来分享下最近的面经~欢迎友好讨论,信息共享
1. Transformer 为什么能替代 RNN 成为大模型主流架构?
2. Self-Attention 的计算过程是什么,时间复杂度为什么高?
3. Multi-Head Attention 的作用是什么,为什么要分多个头?
4. 位置编码为什么必要,绝对位置编码和相对位置编码有什么区别?
5. 什么是 KV Cache,它为什么能显著提升推理效率?
6. Prefix Cache 和 KV Cache 有什么区别,分别适合什么场景?
7. 为什么大模型推理通常是 memory bound,而不是 compute bound?
8. Batch 推理和单请求推理的吞吐与延迟 tradeoff 是什么?
9. Continuous Batching 解决了什么问题,为什么对推理服务很重要?
10. Prefill 和 Decode 两个阶段的性能瓶颈分别在哪里?
11. 大模型采样里的 temperature、top-k、top-p 分别会怎样影响输出?
12. 贪心解码、束搜索、随机采样分别适合什么生成任务?
13. 重复惩罚和长度惩罚分别是为了解决什么问题?
14. 为什么模型有时会出现“复读机”现象,通常怎么缓解?
15. 量化是什么,INT8、INT4、FP16 的核心区别是什么?
16. 推理量化会对模型效果造成什么影响,如何评估是否值得量化?
17. 张量并行、流水线并行、数据并行分别适合哪个阶段?
18. 单机多卡部署大模型时,通信开销主要来自哪里?
19. 为什么 GPU 显存是大模型部署的核心约束之一?
20. 模型参数量、上下文长度、并发数三者之间是什么关系?
21. 什么是 MoE 模型,为什么它能在参数规模很大时控制推理成本?
1. Transformer 为什么能替代 RNN 成为大模型主流架构?
2. Self-Attention 的计算过程是什么,时间复杂度为什么高?
3. Multi-Head Attention 的作用是什么,为什么要分多个头?
4. 位置编码为什么必要,绝对位置编码和相对位置编码有什么区别?
5. 什么是 KV Cache,它为什么能显著提升推理效率?
6. Prefix Cache 和 KV Cache 有什么区别,分别适合什么场景?
7. 为什么大模型推理通常是 memory bound,而不是 compute bound?
8. Batch 推理和单请求推理的吞吐与延迟 tradeoff 是什么?
9. Continuous Batching 解决了什么问题,为什么对推理服务很重要?
10. Prefill 和 Decode 两个阶段的性能瓶颈分别在哪里?
11. 大模型采样里的 temperature、top-k、top-p 分别会怎样影响输出?
12. 贪心解码、束搜索、随机采样分别适合什么生成任务?
13. 重复惩罚和长度惩罚分别是为了解决什么问题?
14. 为什么模型有时会出现“复读机”现象,通常怎么缓解?
15. 量化是什么,INT8、INT4、FP16 的核心区别是什么?
16. 推理量化会对模型效果造成什么影响,如何评估是否值得量化?
17. 张量并行、流水线并行、数据并行分别适合哪个阶段?
18. 单机多卡部署大模型时,通信开销主要来自哪里?
19. 为什么 GPU 显存是大模型部署的核心约束之一?
20. 模型参数量、上下文长度、并发数三者之间是什么关系?
21. 什么是 MoE 模型,为什么它能在参数规模很大时控制推理成本?
全部评论
相关推荐
点赞 评论 收藏
分享
查看6道真题和解析