问题一, 我感觉BN强行对每层特征都中心化可能并不是一个绝对正确的先验吧。 按batch来讲的话,如果batch太小,用moving average去估计global average的偏差可能会比较大,或者数据本身冗余太大, global variance的偏差会比较大。 问题二,会不会和重要采样之类的东西有关啊,这么大的类别输出,你softmax 都很难求。 问题三,核函数的话,我记得有个理论说只要kernel满足某些条件就有一个内积结构与之对应(西瓜书上好像有),所以这个题目会不会有点问题?
点赞 评论

相关推荐

对空六翼:你真幸运,碰见这么好的人,不像我,秋招的时候被室友骗进cx了
实习好累,可以辞职全力准...
点赞 评论 收藏
分享
03-06 18:20
门头沟学院 Java
点赞 评论 收藏
分享
正在热议
更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务