非要找个理由的话:decoder-only采用的是因果注意力机制,causal attention mask保证了attention score一定是满秩的,而bi-direction attention mask,也就是encoder里所用的不能保证满秩。显而易见,参数矩阵的秩和它的学习能力是相关的。所以decoder-only架构潜力更大,因此也需要更多的数据才训练,模型做大的时候,它的capability是随着尺寸变大有着一个稳定增长。 实际情况:海量数据+更强的训练工程。
8 2

相关推荐

秋盈丶:后续:我在宿舍群里和大学同学分享了这事儿,我好兄弟气不过把他挂到某脉上了,10w+阅读量几百条评论,直接干成精品贴子,爽
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务