联通大模型算法 26校招一面

发点面经攒攒人品~
1.项目拷打
2.现在主流大模型架构有什么变化?
3.grpo的改进方法有哪些?了解gspo吗?
4.transformer结构介绍?
5.实习拷打
6.deepseek r1有的什么注意力优化?
7.有了解什么kv优化方法吗?
8.code:手撕mha,进一步问在哪加masked矩阵。
全部评论

相关推荐

03-16 11:07
南开大学 Java
牛马人的牛马人生:快手卡实习经历的
点赞 评论 收藏
分享
评论
1
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务