二分类里为什么别用 MSE?面试版一图流总结

很多同学会问:sigmoid 输出是 0~1,标签也是 0/1,为什么不能直接上 MSE?

核心在梯度:
- BCE 对 z 的梯度是 y_hat - y(错得越离谱,梯度越大)
- MSE 多了 y_hat(1-y_hat),当预测接近 0/1 时梯度会被压扁

结果就是:模型最该被纠正的时候,反而学不动。
面试一句话:分类本质是概率建模,BCE 对应最大似然,训练稳定性显著好于 MSE。

#机器学习# #深度学习# #算法面试#
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务