无论文勇闯秋招算法岗——文远知行一面

整体的沟通不是很顺畅,面试官一直在纠结项目背景,我说是技术预研,他一直问有没有业务背景

自驾的强化学习和llm的不太一样

他们是传统的RL,也不是多模态

问了一些项目,面试官好像不太懂

问了我几个问题

GRPO的优化目标?

KL散度的作用,为什么要KL散度?

为什么有些论文移除了KL散度?

这样会不会灾难性遗忘?

GRPO比PPO的优势,我说移除了reward model,以及去掉了value model。但是面试官不是很满意,说这不是GRPO主要的改进。

工作比较flexible

考了一个

leetcode.162

(把这题理解为爬坡,当num[mid] <num[mid+1] 说明是往右的一个上坡,left=mid+1即可(当前这个坡的峰值只可能是mid+1及其右边),mid=(left+right)//2,重复操作,最后剩下一个元素的时候,就是峰值。)

感觉这个组不是弄大模型的,更多的是传统的一些自驾相关的,不是很匹配

全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务