DeepCritic:SFT+RL两阶训练显著提升LLM自我监督能力!!

论文题目:DeepCritic: Deliberate Critique with Large Language Models
论文地址:https://arxiv.org/pdf/2505.00662
论文详解:https://mp.weixin.qq.com/s/6eridKO3iB1jO_W8Vwb7cg

文章的核心贡献是提出了一个名为 DeepCritic 的新型两阶段框架,用于开发能够对数学解题过程的每个推理步骤进行深入批判的 LLM critics。实验结果表明基于 Qwen2.5-7B-Instruct 开发的 DeepCritic 模型在多个错误识别基准测试中显著优于现有的 LLM critics(包括同尺寸的 DeepSeek-R1-distill 模型和 GPT-4o),并且能够通过更详细的反馈更有效地帮助 LLM 生成器修正错误步骤。

两阶段训练方式
第一阶段:监督式微调(SFT):通过利用 Qwen2.5-72B-Instruct 生成 4.5K 长篇批判作为种子数据进行监督式微调,使模型能够生成包含多视角验证和深入批判的批判内容。
第二阶段:强化学习(RL):在监督式微调的基础上,进一步通过强化学习优化模型的批判能力。强化学习的数据来源可以是现有的人标注数据(如 PRM800K),也可以是通过蒙特卡洛采样估计正确性自动标注的数据。
#大模型论文分享##大模型##强化学习##监督微调##论文分享##聊聊我眼中的AI#
全部评论

相关推荐

上班两个周了  我一来damn我master就和我说他就快走了 master是广东人 带有一些口音 但也无妨 很快的就熟悉了 他不高确又精明 深刻的还是每天的早上的两颗鸡蛋和一卷烧卖 我与他相得益彰 每天早上都是面包🥖  他不是主司开发确及其了解 因为他本质还是开发  每天中午我趴在桌上死睡 他总是会在开灯的第一刻就开始下午的工作周期   第一天我就直接了解了一个模块的业务 差点累死   这几天我与他抵手详谈 了解了很多东西但是我还是有很多不明白的 今天是没有master的第一天 业务突然发难我很是发怵   就像挡在我面前的盾🛡️被破裂开来  我直面风雨 哦不 master没有你我该怎么办  业务的沟通我以快疯昨夜下了很大的雨 我送他回宿舍收拾东西 我看着伞沿低落的雨滴 不知其终究会落到哪里 无论是落在我脚下的石砖就着泥的小坑 或是高楼中牌匾上的一颗螺丝 总还是蒸发成雨的时运 哦快到了  “到了大厂给我内推啊 ” 哈哈哈 那场大雨在他上楼之后就停了 我放下被握的略微发松的伞柄头骑上单车回了家 一路吱吱呀呀的老共享单车 还是那样的硌得慌
牛客创作赏金赛
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务