荣耀大模型算法-暑期技术面

主包刚实习的时候面的,因为发烧了状态非常不好,现在已经被泡死了
两个面试官都没开视频,并且好像在忙业务,旁边一直有人来打断
1.自我介绍
2.手机助手项目背景,奖励是怎么分配到每一步的?数据量大小?长短链路比例?正负样本数据量?(这里突然忘记了,然后面完就想起来了)
3.R1复现数据分布?你怎么确定你的方案是有效的?采用的什么框架?GRPO相对于PPO有什么缺点?PPO到GRPO的思路?
4.为什么现在在实习还会投实习?
5.看过R1的文章是吧,讲一下他们是做了多少论训练。
6.能实习多久?
反问:对实习生要求?希望能参与到项目当中,同时也鼓励做一些探索,同时介绍了业务是干嘛,反正我是没听懂,更像是中台部门。转正?目前部门很多同学都是通过转正加入的。#27届实习投递记录#
全部评论

相关推荐

评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务