DeepCritic:SFT+RL两阶训练显著提升LLM自我监督能力!!

论文题目:DeepCritic: Deliberate Critique with Large Language Models
论文地址:https://arxiv.org/pdf/2505.00662
论文详解:https://mp.weixin.qq.com/s/6eridKO3iB1jO_W8Vwb7cg

文章的核心贡献是提出了一个名为 DeepCritic 的新型两阶段框架,用于开发能够对数学解题过程的每个推理步骤进行深入批判的 LLM critics。实验结果表明基于 Qwen2.5-7B-Instruct 开发的 DeepCritic 模型在多个错误识别基准测试中显著优于现有的 LLM critics(包括同尺寸的 DeepSeek-R1-distill 模型和 GPT-4o),并且能够通过更详细的反馈更有效地帮助 LLM 生成器修正错误步骤。

两阶段训练方式
第一阶段:监督式微调(SFT):通过利用 Qwen2.5-72B-Instruct 生成 4.5K 长篇批判作为种子数据进行监督式微调,使模型能够生成包含多视角验证和深入批判的批判内容。
第二阶段:强化学习(RL):在监督式微调的基础上,进一步通过强化学习优化模型的批判能力。强化学习的数据来源可以是现有的人标注数据(如 PRM800K),也可以是通过蒙特卡洛采样估计正确性自动标注的数据。
#大模型论文分享##大模型##强化学习##监督微调##论文分享##聊聊我眼中的AI#
全部评论
点赞 回复 分享
发布于 2025-09-02 14:38 北京

相关推荐

想run的马里奥在学...:这个学历帮你扫平百分之80的障碍,投就完了,这会找不到就等3月暑期一样能找到
点赞 评论 收藏
分享
面试官全程关摄像头1.自我介绍一下2.React和Vue哪个更熟悉一点3.你在之前那段实习经历中有没有什么技术性的突破(我只是实习了44天工作28天,我把我能说的都说了)4.你封装的哪个表单组件支不支持动态传值5.自己在实习阶段Vue3项目封装过hook吗6.hook有什么作用7.Vue2和Vue3的响应式区别(我说一个是proxy是拦截所有的底层操作,Object.defineProperty本身就是一个底层操作,有些东西拦截不了,比如数组的一些操作还有等等,面试官就说实在要拦截能不能拦截????我心想肯定不行呀,他的底层机制就不允许吧)8.pinia和vuex的区别(这个回答不出来是我太久没用了)9.pinia和zustand的区别,怎么选(直接给我干懵了)(我说react能用pinia吗  他说要用的话也可以)10.渲染一万条数据,怎么解决页面卡顿问题(我说分页、监听滚轮动态加载,纯数据展示好像还可以用canvas画)(估计是没说虚拟表单,感觉不满意)11.type和interface的区别12.ts的泛型有哪些作用(我就说了一个结构相同但是类型不同的时候可以用,比如请求响应的接口,每次的data不同,这里能用一个泛型,他问我还有什么)13.你项目用的是React,如果让你再写一遍你会选择什么14.pnpm、npm、yarn的区别15.dependencies和devdependencies的区别总而言之太久没面试了,上一段实习的面试js问了很多。结果这次js一点没问,网络方面也没考,表现得很一般,但是知道自己的问题了  好好准备,等待明天的影石360和周四的腾讯了  加油!!!
解zj:大三的第一段面试居然是这样的结局
查看15道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务