2022-03-24 20:01 已编辑武汉理工大学数据分析师

关注

...

目录

DRL - 01导论
DRL - 02 Proximal Policy Optimization (PPO)
DRL - 03 Q-learning
DRL - 04 Actor-critic
- AC A2C A3C
- pathwise derivative policy gradient
DRL - 05 Sparse Reward
DRL - 06 Imitation Learning
- behavior cloning
- inverse reinforcement learning

DRL - 01导论

ML 23-1 deep reinforcement learning

scenario of deep reinforcement learning

learning to play GO

Supervised vs Reinforcement

applications

Gym: https://gym.openai.com/

Universe: https://openai.com/blog/universe/
difficulties of reinforcement learning

reward delay 一些没有奖励的动作在当前看起来没有用，但对未来会产生影响，帮助在未来得到奖励。

agent's actions affect the subsequent data it recevives，agent 需要去探索，不管是好的行为还是坏的。
outline

Policy-based Approach - Learning an Actor

machine learning $\approx$ looking for a function

找function 的三大步骤

DRL
1. neural network as actor
  
  input: vector、matrix，eg: pixels
  
  output: action 采取行动的几率，stochastic
1. goodness of function
  
  supervised learning vs DRL
1. pick the best
- gradient ascent
- add a baseline

critics

评估observation

Actor-Critic

ML 23-2 policy gradient (Supplementary Explanation)

ML 23-3 RL

interact with environments

机器学到的行为会影响下一步的发展，所有的action 当成整体看待

components

env、reward function不能控制，只能调整actor的行为

alt

critic

alt

评估critic：

Monre-Carlo：

alt

Temporal defference：

alt

Q

alt

actor 如果⽆法穷举则会爆炸，采用PDPG

pathwise derivative policy gradient

alt

Asynchronous A3C

alt

imitation learning

alt alt alt

类似GAN:

alt

DRL - 02 Proximal Policy Optimization (PPO)

policy gradient

on-policy and off-policy

add constraint

DRL - 03 Q-learning

introduction of Q-learning

Tips of Q-learning

Q-learning for Continuous Actions

DRL - 04 Actor-critic

AC A2C A3C

pathwise derivative policy gradient

DRL - 05 Sparse Reward

reward shaping

curriculum learning

hierarchical RL

DRL - 06 Imitation Learning

behavior cloning

inverse reinforcement learning

全部评论

推荐最新楼层

09-25 17:00

门头沟学院测试工程师

海康威视面约

接到海康威视的面试了希望这次可以把握住，秋招先拿一个保底offer吧

点赞评论收藏

分享

09-20 22:11

周口师范学院数据分析师

PowerBI自定义函数

Power BI Desktop 9月份版本已经正式发布。相信很多小伙伴已经关注到了本次版本更新有一个重量级功能的推出自定义函数。那么这个功能对于Power BI的开发者来说很重要么？是否每个人都需要掌握此功能呢？  对此，白茶想说是的，这个功能的推出对于每一位Power BI开发者来说都是非常重要的。掌握了自定义函数(UDF)功能，会对日常的BI开发工作产生以下影响：  告别重复的KPI逻辑构建 形成自己的代码库体系 为用户提供开箱即用的DAX体系 扩展开发者的职业方向  接下来我们通过具体的函数介绍和实际案例，来向大家介绍UDF功能。 语法介绍 DAX查询语法如下： DEFINE     ...

Fabric丨白茶

点赞评论收藏

分享

08-18 16:18

武汉科技大学 Java

求助，字节会脏面评吗

鼠鼠抱着试一试的态度投了字节，没想到直接打电话约面，鼠鼠第一次面试，处女面发挥不好会脏面评吗😭😭😭

xiaolihuam...：当然还有一种情况是你多次一面挂，并且挂的原因都比较类似，例如每次都是算法题写不出来。面试官给你的评价大概率是算法能力有待加强，算法能力有待提高，基础知识掌握的不错，项目过关，但是coding要加强。短期内高强度面试并且每次都是因为同样的原因挂（这个你自己肯定很清楚），会形成刻板印象，因为你偶尔一次算法写不出来，面试官自己也能理解，因为他清楚的知道自己出去面试也不一定每一次面试算法都能写出来。但是连续几次他发现你的面屏里面都是算法有问题，他就认为这不是运气问题，而是能力问题，这种就是很客观的评价形成了刻白印象，所以你要保证自己。至少不能连续几次面试犯同样的错。算法这个东西比较难保证，但是有些东西是可以的，例如某一轮你挂的时候是因为数据库的索引，这个知识点答的不好，那你就要把数据库整体系统性的复习，下一轮面试你可以，项目打的不好，可以消息队列答的不好，但是绝对不可以数据库再答的不好了。当然事实上对于任何面试都应该这样查漏补缺，只是对于字节来说这个格外重要，有些面试官真的会问之前面试官问过的问题

点赞评论收藏

分享

09-11 09:30

已编辑

中山大学 Java

27届实习求助

请教一下各位，想在明年2月份找中大厂暑期实习的话，简历上的这些内容够用吗？目前实习经历只有简历上一段银行的业务

十二点前睡：学历加粗即可

你的简历改到第几版了

点赞评论收藏

分享

09-22 15:41

360集团_运维开发工程师(准入职员工)

360集团内推，360集团内推码

360真的超好，也碰到了很好的mentor，小组氛围巨好。实习期间完整的做了两个项目，感谢mentor的信任，愿意把一些实打实的内容让我做，完全没有做一些dirty work，可以说是充实的过了三个月，感觉抵得上在学校一年，后悔没有早点来这里。360对实习生真的巨好，不管是mentor还是能给到的资源，感觉在大厂中也是少见的，我为360打call!!! 在360这样的企业里，管理上非常的扁平化，没有严苛的上下级关系，这一点就非常让人舒服。 同时公司也会给员工很多成长和锻炼的机会，比如说定期的各类型专业知识的培训啊，还有很多接触大项目的机会。只要你肯学习和努力，就一定会有收获。 同事之间的关系也...

360集团公司氛围 303人发布

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 国企秋招，你投了吗？ #

17127次浏览 147人参与

# 应届生第一份工作最好去大厂吗？ #

22792次浏览 456人参与

# 乐堡互娱校招 #

27474次浏览 245人参与

# 你在职场中沾染到的“坏”习惯 #

13991次浏览 119人参与

# 机械人，你最希望上岸的公司是？ #

183765次浏览 1899人参与

# 拿到offer之后，可以做些什么 #

31101次浏览 189人参与

# 思朗科技求职进展汇总 #

51733次浏览 373人参与

# 海尔求职进展汇总 #

7719次浏览 35人参与

# 你会为了工作牺牲生活吗？ #

43333次浏览 348人参与

# 机械只有转码才有出路吗？ #

139914次浏览 1629人参与

# 通信硬件岗投递时间线 #

25378次浏览 88人参与

# 贝壳求职进展汇总 #

28149次浏览 162人参与

# 央国企投递记录 #

111484次浏览 1451人参与

# 互联网回暖，腾讯要招5000人！ #

21214次浏览 584人参与

# 入职跑路最快的一次经历 #

31317次浏览 208人参与

# 机械求职避坑tips #

64479次浏览 441人参与

# 硬件开发岗知多少 #

17071次浏览 124人参与

# ___岗狗都不干，我干！ #

16643次浏览 118人参与

# 为什么国企只招应届生 #

200575次浏览 1222人参与

# kpi面有什么特征 #

78739次浏览 463人参与

# 校招谈薪技巧 #

46027次浏览 661人参与

# 歌尔求职进展汇总 #

65541次浏览 352人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务