百川大模型算法二面-日常实习
自我感觉良好但喜提人才库,我真没招了...
1.dpo原理 为啥要用dpo不用ppo
2.ppo中的reward model如何训练
3.ppo中的 GAE和优势函数是什么
4.3b模型的数据是哪里得到的
5.grpo和ppo的区别 优势在哪里了解 GQA和 MHA么
6.手写一下 dpo和ppo
7.手写多头注意力机制
8.手写梯度下降法的二分
1.dpo原理 为啥要用dpo不用ppo
2.ppo中的reward model如何训练
3.ppo中的 GAE和优势函数是什么
4.3b模型的数据是哪里得到的
5.grpo和ppo的区别 优势在哪里了解 GQA和 MHA么
6.手写一下 dpo和ppo
7.手写多头注意力机制
8.手写梯度下降法的二分
全部评论
更新的好多 
相关推荐
点赞 评论 收藏
分享
开始打牌offer啦:1.为什么要写这么多内容呀
2.什么叫做简历
3.什么样的内容可以写到简历上
4.项目可以包装,但是要有理有据呀,不能乱包装呀,比如
跨境能达到日均120万订单的在国内都是能叫的上名字的,而且这些工作也基本上不太会交给一个实习生去做
建议友友可以去网上或者找同学的简历看看,他们的简历是怎么写的,去找找上面的那四个问题的答案吧,然后要记住的是Java是服务于业务的,而不是服务于微服务或者技术的 点赞 评论 收藏
分享
01-26 18:16
门头沟学院 前端工程师 点赞 评论 收藏
分享

查看11道真题和解析