美团智能体
1.简历
2.介绍 DeepResearch 几篇工作?主 Agent 和子 Agent 有什么区别,主要哪些子 agent?
3.RL tool 的 loss 有什么区别?
4.Reasoning 的 loss 有什么其他特点,介绍你知道的(think 和 nothink 的 loss)。
5.PPO、GRPO、DPO 区别。6.DAPO 了解多少,介绍创新点。
6.还有其他 GRPO 变体吗?介绍创新点。
7.手撕:rope,打开 llama github 源码的 rope 介绍和我实现的区别
总结:RL tool的loss忘了,只有这一个失误,然后喜提人才库
#面试问题记录#
2.介绍 DeepResearch 几篇工作?主 Agent 和子 Agent 有什么区别,主要哪些子 agent?
3.RL tool 的 loss 有什么区别?
4.Reasoning 的 loss 有什么其他特点,介绍你知道的(think 和 nothink 的 loss)。
5.PPO、GRPO、DPO 区别。6.DAPO 了解多少,介绍创新点。
6.还有其他 GRPO 变体吗?介绍创新点。
7.手撕:rope,打开 llama github 源码的 rope 介绍和我实现的区别
总结:RL tool的loss忘了,只有这一个失误,然后喜提人才库
#面试问题记录#
全部评论
相关推荐
02-25 16:29
齐鲁工业大学 golang
找工作勤劳小蜜蜂:自我描述部分太差,完全看不出想从事什么行业什么岗位,也看不出想在哪个地区发展,这样 会让HR很犹豫,从而把你简历否决掉。现在企业都很注重员工稳定性和专注性,特别对于热爱本行业的员工。
你实习的工作又太传统的it开发(老旧),这部分公司已经趋于被淘汰,新兴的互联网服务业,比如物流,电商,新传媒,游戏开发和传统的It开发有天然区别。不是说传统It开发不行,而是就业岗位太少,基本趋于饱和,很多老骨头还能坚持,不需要新血液。
工作区域(比如长三角,珠三角,成渝)等也是HR考虑的因素之一,也是要你有个坚定的决心。否则去几天,人跑了,HR会被用人单位骂死。 点赞 评论 收藏
分享

查看8道真题和解析