...

目录

DRL - 01导论

ML 23-1 deep reinforcement learning

scenario of deep reinforcement learning

  • learning to play GO
  • Supervised vs Reinforcement
  • applications

    Gym: https://gym.openai.com/

    Universe: https://openai.com/blog/universe/

  • difficulties of reinforcement learning

    reward delay 一些没有奖励的动作在当前看起来没有用,但对未来会产生影响,帮助在未来得到奖励。

    agent's actions affect the subsequent data it recevives,agent 需要去探索,不管是好的行为还是坏的。

  • outline

Policy-based Approach - Learning an Actor

  • machine learning \approx looking for a function
  • 找function 的三大步骤
  • DRL

    1. neural network as actor

      input: vector、matrix,eg: pixels

      output: action 采取行动的几率,stochastic

    1. goodness of function

      supervised learning vs DRL

    1. pick the best

    • gradient ascent

    alt alt

    • add a baseline

critics

评估observation

Actor-Critic

ML 23-2 policy gradient (Supplementary Explanation)

ML 23-3 RL

interact with environments

机器学到的行为会影响下一步的发展,所有的action 当成整体看待

components

env、reward function不能控制,只能调整actor的行为

alt

critic

alt

评估critic:

Monre-Carlo:

alt

Temporal defference:

alt

Q

alt

actor 如果⽆法穷举则会爆炸,采用PDPG

pathwise derivative policy gradient

alt

Asynchronous A3C

alt

imitation learning

alt alt alt

类似GAN:

alt

DRL - 02 Proximal Policy Optimization (PPO)

policy gradient

on-policy and off-policy

add constraint

DRL - 03 Q-learning

introduction of Q-learning

Tips of Q-learning

Q-learning for Continuous Actions

DRL - 04 Actor-critic

AC A2C A3C

pathwise derivative policy gradient

DRL - 05 Sparse Reward

reward shaping

curriculum learning

hierarchical RL

DRL - 06 Imitation Learning

behavior cloning

inverse reinforcement learning

全部评论

相关推荐

xiaolihuam...:当然还有一种情况是你多次一面挂,并且挂的原因都比较类似,例如每次都是算法题写不出来。面试官给你的评价大概率是算法能力有待加强,算法能力有待提高,基础知识掌握的不错,项目过关,但是coding要加强。短期内高强度面试并且每次都是因为同样的原因挂(这个你自己肯定很清楚),会形成刻板印象,因为你偶尔一次算法写不出来,面试官自己也能理解,因为他清楚的知道自己出去面试也不一定每一次面试算法都能写出来。但是连续几次他发现你的面屏里面都是算法有问题,他就认为这不是运气问题,而是能力问题,这种就是很客观的评价形成了刻白印象,所以你要保证自己。至少不能连续几次面试犯同样的错。算法这个东西比较难保证,但是有些东西是可以的,例如某一轮你挂的时候是因为数据库的索引,这个知识点答的不好,那你就要把数据库整体系统性的复习,下一轮面试你可以,项目打的不好,可以消息队列答的不好,但是绝对不可以数据库再答的不好了。当然事实上对于任何面试都应该这样查漏补缺,只是对于字节来说这个格外重要,有些面试官真的会问之前面试官问过的问题
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务