今天,读了IN-CONTEXT REINFORCEMENT LEARNING WITH ALGORITHM DISTILLATION。其将强化学习建模成了顺序预测问题,通过历史预测下一个动作,同时历史可以看成context。算法步骤就是通过source RL算法生成数据,然后在给定先前learning history作为context,通过自回归与预测action,来训练causal Trasnformer(这个过程就是文中说地算法蒸馏)。然后,又看了离线强化学习经典论文CQL。
2024-03-20
在牛客打卡4天,今天也很努力鸭!
全部评论

相关推荐

好奇英伟达这种国际出名公司,什么bg什么能力能进
希望被offer砸中...:bg不如多元化容易进,思路要打开
点赞 评论 收藏
分享
卡bg这么严,不是92真是太难了
能干的三文鱼刷了10...:高学历投他们的多自然就优先92了
点赞 评论 收藏
分享
08-01 11:19
电气工程师
我懒羊羊觉得没问题:写的太学生化了,像作文一样,很难看出你和岗位的匹配度
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务