小红书大模型实习一面 30分钟不到...

无算法五八股,就是聊了一下项目
1.实习介绍
2.项目细节介绍
3.项目:讲一下论文里的GRPO算法原理,为什么去掉KL散度,reward function怎么设置
4.项目:credit assignment怎么实施的
5.项目:agentic RL和普通的RL比最大的不同在哪里?
6.项目:你们评测模型用的指标有哪些,介绍一下
7.了解ReAct结构吗,介绍一下?
8.你主要做的是多模态方向的任务对吧,有做过一些文本方面的任务吗?
9.GRPO相比PPO、DPO等有什么优点?
10.反问
全部评论

相关推荐

评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务