美团26校招大模型算法一面
一面
1.介绍项目实习经历。
2.引入大模型的原因,大模型解决了什么问题,3.大模型sft解决不了业务问题吗?为什么还要引入强化学习。强化学习主要解决业务中的什么问题
4.讲一下PPO和GRPO的原理和区别
5.如何理解强化学习中熵的概念,如何保证训练过程中熵保持在较高的水平,
6.强化学习中调参的经验
7. 强化学习中on policy和off policy有什么区别?grpo是on policy的吗?如何实习真正的on policy强化学习。
8.多模态大模型的训练过程有什么不同?
9.多模态大模型的vision encoder一般使用vit的第几层输出?
10.mlp和Q-former两个模态融合模块的优劣?
11.代码题:手撕二叉树层序遍历
1.介绍项目实习经历。
2.引入大模型的原因,大模型解决了什么问题,3.大模型sft解决不了业务问题吗?为什么还要引入强化学习。强化学习主要解决业务中的什么问题
4.讲一下PPO和GRPO的原理和区别
5.如何理解强化学习中熵的概念,如何保证训练过程中熵保持在较高的水平,
6.强化学习中调参的经验
7. 强化学习中on policy和off policy有什么区别?grpo是on policy的吗?如何实习真正的on policy强化学习。
8.多模态大模型的训练过程有什么不同?
9.多模态大模型的vision encoder一般使用vit的第几层输出?
10.mlp和Q-former两个模态融合模块的优劣?
11.代码题:手撕二叉树层序遍历
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
2025-11-11 17:23
电子科技大学 前端工程师 点赞 评论 收藏
分享
葛明珠:被动打杂真的是实习的坑,主动找问题 + 带方案沟通,才是实习的正确打开方式
点赞 评论 收藏
分享
