q learning是off policy的,它每次实验选择下一个a是由behavior policy决定的。这里的behavior policy采用了选择q最大的a。如果是sarsa这种on policy的,它会按照之前学习的target policy去选a,一般是epsilon-greedy。 以上是我个人的理解。
点赞 评论

相关推荐

影04714:把图书管理系统那个项目经验内容适当的减少掉,然后改成据为己有不要说团队项目,因为图书管理系统这类常见的谁来了都能独立写出来,提问能圆过来即可
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务