打卡:今天学习强化学习。- actor-critc:策略学习和价值学习相结合- A2C:添加baseline,降低方差,使得采样和均值之间误差不会太大。- importance sampling:通过另一个分布(已知表达式的分布)来采样,求某一分布(该分布表达式未知,如神经网络)的期望。- off-polcy actor-critic:通过importance sampling 将on-policy 转化为off-policy。