专升本嵌入式软件找不到实习了

全部评论

相关推荐

在小模型中表现良好的许多强化学习(RL)算法策略,往往在迁移到大模型时失去效力。因此,关于RL在模型尺寸扩展(Scaling)方面的研究一直不够完善(尽管OpenAI有一篇相关研究,但其重点更多在于奖励模型的扩展)。那么,为什么RL在模型尺寸扩展上缺乏良好的趋势呢?又是什么因素导致在小模型中有效的策略在大模型中失效呢?这里Anthropic的一篇论文中找到了一些线索,该论文揭示了一个他们观察到的现象。在文章中,作者是这么说的:论文作者发现使用64亿参数模型生成的回应训练的特质偏好模型(Trait PM)表现优于使用更大模型生成回应训练的特质偏好模型。这一发现可能可以用生成回应的概念和句法多样性来解释,尽管还需要进一步研究。较小的模型可能倾向于生成概念上更多样化的样本,相较于大型模型,仅仅是因为它们的熵更高。因此,较小模型生成的两个回应在意义上可能差异更大。如果是这样,那么当样本由较小模型生成时,反馈模型可能更倾向于根据回应的意义进行判断。这或许可以解释为什么使用64亿参数模型生成回应时,特质偏好模型表现更好。相比之下,可以想象的是,1750亿参数模型生成的两个回应在概念上可能更相似,仅在句法上有所不同。在这种情况下,反馈模型可能会根据回应的结构变化进行判断。因此,特质偏好模型可能会学习到与论文作者希望学习的人工智能特质无关的虚假模式。论文作者进行了额外的实验,以检查是否可以通过简单地调整采样温度来提高使用1750亿参数模型生成回应训练的特质偏好模型的性能。确实,通过提高回应生成模型的温度可以增加样本的多样性,但论文作者发现温度对使用1750亿参数模型生成回应训练的1750亿特质偏好模型的性能影响微乎其微。这主要是因为更高的温度往往只会增加样本的句法多样性,而不会增加其概念多样性。这仍然是一个未解决的问题,需要进一步研究来验证这一初步解释。总结:大模型的输出分布往往在概念上缺乏多样性,而更多地体现在语法多样性上。相比之下,小模型可能会产生更多概念上不同的负样本(或者说非常离谱的负样本),而大模型则不会。因此,许多针对避免这些离谱负样本影响模型训练而设计的强化学习算法,在大模型上可能无法奏效。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务