27实习腾讯pcg大模型算法一面

给我面没招了,发点面经攒攒人品~
1.项目拷打
2.pagedattention核心原理;continuous batching;vllm部署的推理策略。
3.grpo和ppo的区别以及两者训练时的细节。
4.如何判断推理能力和最终答案之间是否有关联;如果不匹配怎么改进?
5.推荐场景chosen/reject怎么构造?
6.历史反馈有曝光偏差,学不到真实偏好,怎么解决?
7.多目标reward怎么设计
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务