大语言模型问题求解

现在为什么大语言模型都是decoder-only。😭
全部评论
非要找个理由的话:decoder-only采用的是因果注意力机制,causal attention mask保证了attention score一定是满秩的,而bi-direction attention mask,也就是encoder里所用的不能保证满秩。显而易见,参数矩阵的秩和它的学习能力是相关的。所以decoder-only架构潜力更大,因此也需要更多的数据才训练,模型做大的时候,它的capability是随着尺寸变大有着一个稳定增长。 实际情况:海量数据+更强的训练工程。
8 回复 分享
发布于 2023-11-03 11:54 浙江
推荐苏神博客 https://kexue.fm/archives/9529
2 回复 分享
发布于 2023-11-05 11:30 天津
我的理解是因为对话系统理论上输入是无限长的,随着轮数增加输入会越来越长,不同轮数长度差距很大,encoder采用pad的方式不擅长做这种长度区间差异过大的问题,而且只有decoder情况下,预训练和sft只是数据上不同,训练上差别不大
1 回复 分享
发布于 2023-11-03 11:48 天津
m
点赞 回复 分享
发布于 2023-11-22 10:22 陕西

相关推荐

不愿透露姓名的神秘牛友
09-19 14:43
实习之后才知道团队氛围的重要性来了一周,从第三天就开始想离职……团子背景、薪资福利再怎么好,也不香了
码农索隆:确实,团队的氛围真的很影响心情,好的团队上班感觉轻松愉快,不好的团队,每天没事就整点幺蛾子
投递美团等公司10个岗位
点赞 评论 收藏
分享
08-27 12:02
已编辑
南京外国语学校 网络安全
再来一遍:实则劝各位不要all in华子,不要相信华为hr
点赞 评论 收藏
分享
评论
7
18
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务