DeepSeek 算法岗笔试
#你做过最难的笔试是哪家公司#
手写完整的Multi-Head Attention,不能只写框架
DPO的完整训练流程推导,从数据准备到梯度更新
MOE模型的通信开销计算和负载不均衡问题分析
推理加速的底层实现(vLLM的PagedAttention原理、投机解码的工程实现)
手写完整的Multi-Head Attention,不能只写框架
DPO的完整训练流程推导,从数据准备到梯度更新
MOE模型的通信开销计算和负载不均衡问题分析
推理加速的底层实现(vLLM的PagedAttention原理、投机解码的工程实现)
全部评论
相关推荐
03-20 17:58
University of Illinois at Urbana-Champaign 算法工程师 点赞 评论 收藏
分享
昨天 09:31
西北工业大学 Java 点赞 评论 收藏
分享