我的理解是因为对话系统理论上输入是无限长的,随着轮数增加输入会越来越长,不同轮数长度差距很大,encoder采用pad的方式不擅长做这种长度区间差异过大的问题,而且只有decoder情况下,预训练和sft只是数据上不同,训练上差别不大

相关推荐

Morpheus_:同 好奇什么题() 不过我一面确实是不想要直说了 xs
腾讯求职进展汇总
点赞 评论 收藏
分享
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务