荣耀实习-大模型算法面经 45min

攒攒人品!有面试过同岗的朋友欢迎评论区交流
1.项目拷打
2.实习提问:
项目的背景
sft和rl的数据构造
构造的时候是点对点还是点对面类型的构造?
为什么要用rl来优化模型,在sft的时候遇到了哪些问题,又是怎么解决的?
RL的时候奖励函数是如何设计的?最终效果怎么样?
3.项目提问:
它的记忆管理是如何做的?
为什么要用多agent来做?
多个agent之间是如何进行信息交互的?
4.算法手撕:无
全部评论
强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV
1 回复 分享
发布于 昨天 09:02 广东

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务