京东-大模型-应用算法-一面面经

欢迎友好讨论,信息共享
1.对不同强化微调范式的了解、区别(问了PPO和GRPO的区别)
2.transformer的结构捋一下
3.self-attention介绍一下
4.MHA相较于单头的好处
5.bert模型的结构
6.agent和llm的区别
7.bge-m3模型的训练过程、loss设计等
8.deepseek的创新设计
9.讲一下MOE
10.deepspeed的三个阶段
11.对多模态大模型的了解
12.qwen3-embedding模型和reranker模型的区别
全部评论
除了问题有当场手撕代码吗
点赞 回复 分享
发布于 03-24 11:55 江苏

相关推荐

评论
4
7
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务