DeepSeek 算法岗笔试

#你做过最难的笔试是哪家公司#
手写完整的Multi-Head Attention,不能只写框架
DPO的完整训练流程推导,从数据准备到梯度更新
MOE模型的通信开销计算和负载不均衡问题分析
推理加速的底层实现(vLLM的PagedAttention原理、投机解码的工程实现)
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务