说一个很novel的观点…… bn一般用在图像上,当我们对图片抽取特征后,会得到不同通道的特征,这些通道特征对batch内样本具有同样的含义。例如一个人有年龄,身高等特征。而nlp中,如果要进行bn,则是对不同句子的第i个token进行处理,举个例子"我爱你"和"牛客网",其中的我和牛并没有相同的含义,所以解释不通。还有一个点就是你所说的每个句子长度不同,对于短句子我们需要pad,那么如果进行bn就需要将pad.和长句子中的token进行处理,这样也是不合理的。

相关推荐

活泼的代码渣渣在泡池...:哈哈哈挺好的,我也上岸美团了,不说了,我又接了一单
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务