美团——大模型应用算法(一、二面)
一面:
项目拷打
八股:
GRPO对比PPO
GRPO的问题、哪些算法解决它的问题
ReAct框架介绍
ReAct和Plan-and-Excute 对处理长上下文有什么优劣势
大模型有哪些技术设计让他能够处理更长的上下文
代码考核:
每k个链表反转
二面
项目拷打
八股:
GRPO介绍
比较不同强化学习算法的优缺点
强化学习训练有遇到什么挑战吗
奖励之间做平衡有什么经验吗?
分阶段奖励训练有尝试过吗?
代码考核:
验证完全二叉树的完备性。
项目拷打
八股:
GRPO对比PPO
GRPO的问题、哪些算法解决它的问题
ReAct框架介绍
ReAct和Plan-and-Excute 对处理长上下文有什么优劣势
大模型有哪些技术设计让他能够处理更长的上下文
代码考核:
每k个链表反转
二面
项目拷打
八股:
GRPO介绍
比较不同强化学习算法的优缺点
强化学习训练有遇到什么挑战吗
奖励之间做平衡有什么经验吗?
分阶段奖励训练有尝试过吗?
代码考核:
验证完全二叉树的完备性。
全部评论
相关推荐
投票
点赞 评论 收藏
分享
投票
点赞 评论 收藏
分享
查看17道真题和解析