DeepCritic:SFT+RL两阶训练显著提升LLM自我监督能力!!

论文题目:DeepCritic: Deliberate Critique with Large Language Models
论文地址:https://arxiv.org/pdf/2505.00662
论文详解:https://mp.weixin.qq.com/s/6eridKO3iB1jO_W8Vwb7cg

文章的核心贡献是提出了一个名为 DeepCritic 的新型两阶段框架,用于开发能够对数学解题过程的每个推理步骤进行深入批判的 LLM critics。实验结果表明基于 Qwen2.5-7B-Instruct 开发的 DeepCritic 模型在多个错误识别基准测试中显著优于现有的 LLM critics(包括同尺寸的 DeepSeek-R1-distill 模型和 GPT-4o),并且能够通过更详细的反馈更有效地帮助 LLM 生成器修正错误步骤。

两阶段训练方式
第一阶段:监督式微调(SFT):通过利用 Qwen2.5-72B-Instruct 生成 4.5K 长篇批判作为种子数据进行监督式微调,使模型能够生成包含多视角验证和深入批判的批判内容。
第二阶段:强化学习(RL):在监督式微调的基础上,进一步通过强化学习优化模型的批判能力。强化学习的数据来源可以是现有的人标注数据(如 PRM800K),也可以是通过蒙特卡洛采样估计正确性自动标注的数据。
#大模型论文分享##大模型##强化学习##监督微调##论文分享##聊聊我眼中的AI#
全部评论

相关推荐

06-13 11:22
已编辑
门头沟学院 Unity3D客户端
先说bg,非92院校 27届本科,能OC腾讯感觉也是运气好吧,四月份那次流程挂的莫名其妙。本来都准备好找不到实习暑假好好沉淀了,这次五月底了突然又打电话约面试,中间面试链接最长卡过6天,等的很折磨,两次技术面也没有传统意义上的手撕算法,恰好我算法刷了很多题但是感觉还是写不好,就手撕了一个shared_ptr和口撕了LRU。去年十月份才开始学算法,十一月进了腾讯客户端公开课之后就把算法扔了,今年三月份才捡回来,中间投过很多公司,但是都没有进面,就像图一那样,总结下来其实就是算法写的不好,笔试的时候时间压力一上来人就晕了。投腾讯其实也是因为当时腾讯公开课结业的时候说有特别通道,筛选几率更大点,但是投了之后也没筛到我,就一直泡池子了。其实最开始我的目标是进西山居seed的,等到大三再找实习,但是无奈seed笔试挂了(其实我接受我没写好笔试导致进不了的事实,但是我很难接受一个岗位招聘的时候,分开多轮笔试,但是事实上的题只有三套,但是开的笔试轮次远远大于题的套数,甚至每一套题之间的题型分布完全不一样,所以相对晚做和晚投能直接知道题目,也确实是我学生思维重吧,我觉得这样挺不公平的,而且我也觉得我的水平是完全能够进的)。之后有一天中午无聊把腾讯的简历更新了一下,其实内容没怎么改,然后突然下午就给我约面了,但是还是二面就挂了,八股也是为了准备这次面试才开始正式背的。在这前后又投了很多(其实现在想想确实是因为seed挂的我不甘心,激起了那份胜负欲吧),吉比特,快手,不鸣,巨人,鹰角训练营,炎魂(炎魂的笔试没做,因为发的太晚了),电魂,萨罗斯,完美,莉莉丝,ssob上也沟通过五六家中小厂,甚至还报名了字节的飞书客户端训练营。但是投了这么多的结果全是nullptr,要么是已读不回,要么是笔试挂,要么是简历筛选不过,要么是嫌弃到岗时间太晚。再就是这次了,前后满打满算其实也就准备了三四个月,感谢腾讯收留,也很感激各位牛友们的面经,祝福牛友们都能早日找到心仪的工作or实习。
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务