27实习腾讯pcg大模型算法一面
给我面没招了,发点面经攒攒人品~
1.项目拷打
2.pagedattention核心原理;continuous batching;vllm部署的推理策略。
3.grpo和ppo的区别以及两者训练时的细节。
4.如何判断推理能力和最终答案之间是否有关联;如果不匹配怎么改进?
5.推荐场景chosen/reject怎么构造?
6.历史反馈有曝光偏差,学不到真实偏好,怎么解决?
7.多目标reward怎么设计
1.项目拷打
2.pagedattention核心原理;continuous batching;vllm部署的推理策略。
3.grpo和ppo的区别以及两者训练时的细节。
4.如何判断推理能力和最终答案之间是否有关联;如果不匹配怎么改进?
5.推荐场景chosen/reject怎么构造?
6.历史反馈有曝光偏差,学不到真实偏好,怎么解决?
7.多目标reward怎么设计
全部评论
相关推荐
查看13道真题和解析