今天,读了IN-CONTEXT REINFORCEMENT LEARNING WITH ALGORITHM DISTILLATION。其将强化学习建模成了顺序预测问题,通过历史预测下一个动作,同时历史可以看成context。算法步骤就是通过source RL算法生成数据,然后在给定先前learning history作为context,通过自回归与预测action,来训练causal Trasnformer(这个过程就是文中说地算法蒸馏)。然后,又看了离线强化学习经典论文CQL。
2024-03-20
在牛客打卡4天,今天也很努力鸭!
全部评论

相关推荐

那一天的Java_Java起来:他本来公司就是做这个的,不就是正常的游戏客户端和服务器开发,软硬件联动,有啥恶心不恶心的,提前告诉你就是怕你接受不了,接受不了就没必要再往后走流程浪费时间,虽然这公司是一坨。
点赞 评论 收藏
分享
野猪不是猪🐗:我assume that你must技术aspect是solid的,temperament也挺good的,however面试不太serious,generally会feel style上不够sharp
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务