关注
额,我谈一下我的理解哈,不一定对,相似度计算就是做乘法,所谓注意力机制是通过做乘法来实现的,具体那个变换形式得到qkv的过程就很灵活了。然后这个句子的话,语言模型是用来实现给不同token编码的,理论上来说是关系越接近他们的embedding计算相似度越高或者所谓注意力会越集中,通过大量文本的训练,会发现在这个某些固定长度的句子下,前边的主语会和随之而来的这种代词产生比较多的注意力,至于那个训练方式最基本的就是bert里的那两种,训练后再去预测的话,你提出的it这个词就会被拿过去计算相似度,结果会在tiger上更高,大概这么个意思吧
查看原帖
6 3
相关推荐

点赞 评论 收藏
分享
牛客热帖
更多
正在热议
更多
# 26届的你们有几段实习? #
19015次浏览 270人参与
# 你小时候最想从事什么职业 #
102629次浏览 1771人参与
# 你被哪些公司秒挂过? #
18365次浏览 181人参与
# 网申一定要掌握的小技巧 #
9603次浏览 65人参与
# 如何提高实习转正率? #
7446次浏览 133人参与
# 新凯来求职进展汇总 #
41004次浏览 108人参与
# 你认为哪些项目算烂大街? #
8110次浏览 196人参与
# 机械校招之路总结 #
92390次浏览 1889人参与
# 你后悔自己读研吗? #
8745次浏览 175人参与
# 你以为的实习VS真实的实习 #
11183次浏览 131人参与
# 月薪多少能在一线城市生存 #
10483次浏览 165人参与
# 腾讯工作体验 #
479823次浏览 3498人参与
# 找工作时的取与舍 #
81282次浏览 577人参与
# 最难的技术面是哪家公司? #
5855次浏览 56人参与
# 秋招拿一个offer可以躺平吗 #
144880次浏览 928人参与
# 安利/避雷我的专业 #
77658次浏览 526人参与
# 面试等了一周没回复,还有戏吗 #
137149次浏览 1229人参与
# 你想留在一线还是回老家? #
49987次浏览 513人参与
# 选择和努力,哪个更重要? #
86015次浏览 745人参与
# 当下环境,你会继续卷互联网,还是看其他行业机会 #
114854次浏览 799人参与