虾皮大模型算法日常实习一面-攒人品

发一下问题给大家参考,攒攒人品!
1.项目拷打
2.sft训到什么程度用rl
3.sft的损失和预训练的损失有什么区别。
4.构造sft专家轨迹之后会做什么操作
5.grpo(ppo)和dpo的优缺点
6.grpo的rm出现reward hacking有什么解决方法
7.ppo和grpo的区别
8.思维链冗余怎么处理,每个逻辑打是否冗余的标签?会出现什么问题
9.滑动窗口最大化
全部评论
我咋看着聊的不多呀
点赞 回复 分享
发布于 昨天 23:53 北京

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务