3.7 小米算法实习生(大模型)一面(50min)

3.7 小米算法实习生(大模型)一面(50min)
无脸男
自我介绍
项目主要想完成的目标
论文有哪些idea
介绍PPO算法
为什么PPO算法要用优势函数来评估,为什么不能直接用reward反馈(拷打到死)
GRPO算法
优势函数是什么的优势
GAE广义优势的缺点
介绍Qlora,对什么进行4bit量化,lora初始矩阵是什么,lora矩阵的量化
撕题:数组中找出第k大的数

无反问
全部评论
佬是项目里就有rl吗
点赞 回复 分享
发布于 2025-03-13 13:52 天津

相关推荐

2025-12-08 19:24
电子科技大学 Java
苗条的伊泽瑞尔最喜欢...:同28届被压力了,电科✌就不能去卷算法吗?把Java留给我们双非卷
投递快手等公司10个岗位
点赞 评论 收藏
分享
评论
1
13
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务