小红书大模型实习一面 30分钟不到...
无算法五八股,就是聊了一下项目
1.实习介绍
2.项目细节介绍
3.项目:讲一下论文里的GRPO算法原理,为什么去掉KL散度,reward function怎么设置
4.项目:credit assignment怎么实施的
5.项目:agentic RL和普通的RL比最大的不同在哪里?
6.项目:你们评测模型用的指标有哪些,介绍一下
7.了解ReAct结构吗,介绍一下?
8.你主要做的是多模态方向的任务对吧,有做过一些文本方面的任务吗?
9.GRPO相比PPO、DPO等有什么优点?
10.反问
1.实习介绍
2.项目细节介绍
3.项目:讲一下论文里的GRPO算法原理,为什么去掉KL散度,reward function怎么设置
4.项目:credit assignment怎么实施的
5.项目:agentic RL和普通的RL比最大的不同在哪里?
6.项目:你们评测模型用的指标有哪些,介绍一下
7.了解ReAct结构吗,介绍一下?
8.你主要做的是多模态方向的任务对吧,有做过一些文本方面的任务吗?
9.GRPO相比PPO、DPO等有什么优点?
10.反问
全部评论
相关推荐
01-10 19:44
上海大学 Java
牛客57020934...:现在大厂就很迷,感觉要么就是算法+agent,要么就是开发+agent。。还是招和原来一样的岗位,只是都要求赋能agent了 点赞 评论 收藏
分享
查看10道真题和解析 点赞 评论 收藏
分享