1. 为什么选择这个方法?是否尝试过其他 Baseline?效果对比如何? 回答范例与解析(以选择 SAC 算法为例): 在我的机械臂抓取项目中,我最终选择了**柔性动作评价(Soft Actor-Critic, SAC)**算法。 尝试过的 Baseline: DDPG (Deep Deterministic Policy Gradient):由于是确定性策略,在具身连续控制中探索能力极差,极易陷入局部最优。 PPO (Proximal Policy Optimization):虽然稳定,但作为 On-policy 算法,样本效率(Sample Efficiency)太低,在真实机械臂...