百川大模型算法二面-日常实习

自我感觉良好但喜提人才库,我真没招了...
1.dpo原理 为啥要用dpo不用ppo
2.ppo中的reward model如何训练
3.ppo中的 GAE和优势函数是什么
4.3b模型的数据是哪里得到的
5.grpo和ppo的区别 优势在哪里了解 GQA和 MHA么
6.手写一下 dpo和ppo
7.手写多头注意力机制
8.手写梯度下降法的二分
全部评论
更新的好多
点赞 回复 分享
发布于 02-18 18:40 湖北

相关推荐

2025-12-29 20:37
已编辑
清华大学附属小学 Java
开始打牌offer啦:1.为什么要写这么多内容呀 2.什么叫做简历 3.什么样的内容可以写到简历上 4.项目可以包装,但是要有理有据呀,不能乱包装呀,比如 跨境能达到日均120万订单的在国内都是能叫的上名字的,而且这些工作也基本上不太会交给一个实习生去做 建议友友可以去网上或者找同学的简历看看,他们的简历是怎么写的,去找找上面的那四个问题的答案吧,然后要记住的是Java是服务于业务的,而不是服务于微服务或者技术的
最后再改一次简历
点赞 评论 收藏
分享
对空六翼:你真幸运,碰见这么好的人,不像我,秋招的时候被室友骗进cx了
实习好累,可以辞职全力准...
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务