q learning是off policy的，它每次实验选择下一个a是由beha_牛客网

2017-10-17 08:55 北京大学算法工程师

关注

q learning是off policy的，它每次实验选择下一个a是由behavior policy决定的。这里的behavior policy采用了选择q最大的a。如果是sarsa这种on policy的，它会按照之前学习的target policy去选a，一般是epsilon-greedy。以上是我个人的理解。

点赞评论

昨天 16:32

浙江大学 Java

什么是 C++ 的左值和右值？有什么区别？

图解C++基础-牛客面经...

点赞评论收藏

分享

12-15 10:45

重庆大学研发工程师

手把手教你如果用规则引擎的复合变量实现业务规则动态传参

在现代企业级应用开发中，规则引擎已成为风控决策、策略过滤、行为评分等场景的核心引擎。它能够将频繁变动的业务规则从硬编码中解放出来，实现业务的灵活配置与快速迭代。在JVS规则引擎中，还有一个重要功能：复合变量。复合变量什么是复合变量呢？这里我们可以简单理解为把复合变量可以想成一张经过加工后的 数据表（多行数据），这里复合变量就是通过对一个数据库的表进行查询，做了相应的数据过滤，然后获得的数据结果，那么这个变量中就表示了多行数据。复合变量用于决策调用入参的使用场景在配置过程中，往往配置加工好一个复合变量后。需在后续决策中进行调用，这时就会出现调用时以复合变量的某些值作为入参给到决策进行动态传参。场...

点赞评论收藏

分享

11-21 12:39

中国石油大学（华东） Java

27找第一份实习

可以帮忙点评简历吗，虚心求教

影04714：把图书管理系统那个项目经验内容适当的减少掉，然后改成据为己有不要说团队项目，因为图书管理系统这类常见的谁来了都能独立写出来，提问能圆过来即可

点赞评论收藏

分享

10-23 10:30

杭州电子科技大学 Java

秋招的第一份offer

鼠鼠双非本，只有一段小厂实习，秋招投了也有小100家了，只有2，3家面试，中大厂都没消息，可能还是鼠鼠技术太菜了。上周也是投了家旁边的制造厂，居然6天走完流程了，也是拿到第一份offer了，虽然工资比较低，但是也很满足了，也有继续下去的勇气了，顺带问问大佬们，现在是去找个实习还是继续背八股面试呢

YIYI啊：不要去制造业，特别是这种流程给特别快的厂，说明流动率高，加班严重。你可是杭电的学生，把这个工作机会留给普通双非吧

点赞评论收藏

分享

昨天 17:15

门头沟学院大数据开发工程师

2025这一年真是辛苦了

2025年真是高强度找工作的一年，现在找工作的水平就和高考前的学习水平一样，恐怕是人生巅峰期了；2025年不止是我，还有看到这篇内容的牛友，想必都很辛苦了，希望大家2026年能过得顺利一些！自己简单做了1个总结报告代码附上了，大家可以自己复制改字在桌面新建文本文档---复制代码--保存HTML格式，然后打开就是了 <!DOCTYPE html> <html lang="zh-CN"> <head> <meta charset="UTF-8"> <meta name="viewport&quo...

drift!1214：有5个offer已经很厉害了

2025年终总结

点赞评论收藏

分享

牛客热帖

更多

正在热议

更多

# mt对你说过最有启发的一句话 #

22445次浏览 287人参与

# 机械/制造每日一题 #

79704次浏览 1407人参与

# 秋招被挂春招仍然能投的公司 #

3761次浏览 53人参与

# 你怎么看待AI面试 #

128554次浏览 724人参与

# 摸鱼被leader发现了怎么办 #

88782次浏览 591人参与

# 工作以后，你父母对你啥态度 #

22049次浏览 160人参与

# 求职遇到的搞笑事件 #

151288次浏览 882人参与

# 秋招特别不鸣谢 #

10393次浏览 141人参与

# 2025，我想...... #

80290次浏览 638人参与

# 什么是优秀的实习经历 #

4806次浏览 160人参与

# 今年秋招你收到了多少封邮件？ #

14252次浏览 178人参与

# 选实习，你更看重哪方面？ #

8454次浏览 175人参与

# 工作中遇到的歹人 #

19319次浏览 245人参与

# 工作后，你落下了哪些病根 #

8656次浏览 159人参与

# 实习简历求拷打 #

868次浏览 24人参与

# 快手求职进展汇总 #

698210次浏览 7034人参与

# 找工作有哪些冷知识 #

202662次浏览 2586人参与

# 被上班搭子“传染”了哪些习惯 #

3534次浏览 77人参与

# 工作丧失热情的瞬间 #

339345次浏览 2495人参与

# 打工人的精神状态 #

122439次浏览 1423人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务