关注
额,我谈一下我的理解哈,不一定对,相似度计算就是做乘法,所谓注意力机制是通过做乘法来实现的,具体那个变换形式得到qkv的过程就很灵活了。然后这个句子的话,语言模型是用来实现给不同token编码的,理论上来说是关系越接近他们的embedding计算相似度越高或者所谓注意力会越集中,通过大量文本的训练,会发现在这个某些固定长度的句子下,前边的主语会和随之而来的这种代词产生比较多的注意力,至于那个训练方式最基本的就是bert里的那两种,训练后再去预测的话,你提出的it这个词就会被拿过去计算相似度,结果会在tiger上更高,大概这么个意思吧
查看原帖
6 3
相关推荐
点赞 评论 收藏
分享
牛客热帖
更多
正在热议
更多
# 哪些公司在招寒假实习? #
15811次浏览 195人参与
# 国企vs私企,你更想去? #
305810次浏览 2491人参与
# MiniMax求职进展汇总 #
773次浏览 23人参与
# 26年哪些行业会变好/更差 #
19028次浏览 256人参与
# 卷__卷不过你们,只能卷__了 #
12151次浏览 265人参与
# 有深度的简历长什么样? #
16696次浏览 342人参与
# 写论文的崩溃时刻 #
6567次浏览 148人参与
# 去年的flag与今年的小目标 #
10161次浏览 196人参与
# 关于春招你都做了哪些准备? #
122228次浏览 707人参与
# 机械人,你最希望上岸的公司是? #
198179次浏览 1917人参与
# 现在还是0offer,延毕还是备考 #
1256646次浏览 7922人参与
# 你不能接受的企业文化有哪些 #
11993次浏览 169人参与
# 入职第一天 #
10224次浏览 219人参与
# 租房前辈的忠告 #
350532次浏览 7445人参与
# 你都用AI做什么 #
6932次浏览 156人参与
# 你怎么看待AI面试 #
133451次浏览 745人参与
# 发工资后,你做的第一件事是什么 #
93148次浏览 311人参与
# 最难的技术面是哪家公司? #
62972次浏览 949人参与
# 腾讯音乐求职进展汇总 #
147977次浏览 1053人参与
# 华为池子有多大 #
159184次浏览 877人参与
# 一人分享一道面试手撕题 #
23147次浏览 811人参与
查看3道真题和解析
