使用确定性策略而非随机策略
在目标函数中加入策略熵的最大化项,鼓励探索
不使用经验回放
仅使用单个Q网络
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题