26校招拼多多LLM算法二面 被横向挂

总体感觉不错,估计是太卷了。。。
1. 手撕:给定 rand(7)(随机选取 1-7)实现 rand(10)
2. 平均调用 rand(7) 次数是多少?
3. grpo是什么?最耗费时间是哪一步?
4. grpo 长度衰减怎么做的?公式输入给我
5. grpo 计算 loss 时候如何做重要性采样?有什么改进点?
6. 你grpo 用了几张卡,大概多少 h,数据用了多少?
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务