首页 / 面试基础

#

面试基础

#

660次浏览 1人互动

此刻你想和大家分享什么

热门最新

03-19 09:34

长安大学算法工程师

【备战算法岗】爆肝200页！强化学习底层数学推导与经典架构复习笔记

各位牛友大家好！近期准备具身智能/机器人/控制类算法岗的同学，是不是经常被面试官追问 PPO 的截断机制、贝尔曼方程的手推，或者 DDPG 和 TD3 的区别？为了复习这些硬核考点，我整理了一份 200 页的强化学习笔记。没有废话，全是面试和手撕代码最爱考的底层数学原理与算法架构，现免费分享给大家当复习资料！笔记提纲速览：👉 核心数学推导篇（夯实基础）：MDP与贝尔曼公式：吃透状态价值与动作价值的推导。DP / MC / TD 对比：从值迭代/策略迭代，到蒙特卡洛，再到 Sarsa 和 Q-learning 的收敛性分析及区别。PG与AC定理推导：重点整理了策略梯度的目标函数计算，以及 Ac...

点赞评论收藏

分享

玩命加载中

创作者周榜

更多

热议话题

更多

牛客网
牛客网在线编程
牛客网题解
牛客企业服务