字节大模型算法一面凉经

发一下问题给大家参考,攒攒人品!有面试过同岗的朋友欢迎评论区交流
1. 基于真实对话轨迹训练多轮对话智能体,保证提问和回答与真实场景分布一致
2. GRPO和dpo的区别和使用场景,相关变种。
3. reward hacking概念和解决方案
4. 单调栈
全部评论

相关推荐

评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务