腾讯26校招广告推荐算法一面
1.简历拷打
2.介绍一下ppo dpo和grpo这些,除了这几个还了解哪些
3.了解dqn吗?有哪些变种?
4.actor和critic两者的区别?
5.介绍一下value base和policy base?
6.介绍一下RL的损失函数?
代码
二叉树的最大宽度
最长递增子序列
2.介绍一下ppo dpo和grpo这些,除了这几个还了解哪些
3.了解dqn吗?有哪些变种?
4.actor和critic两者的区别?
5.介绍一下value base和policy base?
6.介绍一下RL的损失函数?
代码
二叉树的最大宽度
最长递增子序列
全部评论
相关推荐
点赞 评论 收藏
分享
查看10道真题和解析
OPPO公司福利 1172人发布