序列中每一个token的embedding在经过很多层self attention之后会变得相似的问题以及对应的原因? 这个问题得怎么解释呢?之前好像没看到对应的说法。
点赞 3

相关推荐

双非阴暗爬行:我来看看笑死我了,这名字取得好想笑(没有不好的意思)
点赞 评论 收藏
分享

牛客热帖

更多
牛客网
牛客企业服务