06-14 23:26 门头沟学院自然语言处理发布于上海

关注

DeepCritic：SFT+RL两阶训练显著提升LLM自我监督能力！！

论文题目：DeepCritic: Deliberate Critique with Large Language Models
论文地址：https://arxiv.org/pdf/2505.00662
论文详解：https://mp.weixin.qq.com/s/6eridKO3iB1jO_W8Vwb7cg

文章的核心贡献是提出了一个名为 DeepCritic 的新型两阶段框架，用于开发能够对数学解题过程的每个推理步骤进行深入批判的 LLM critics。实验结果表明基于 Qwen2.5-7B-Instruct 开发的 DeepCritic 模型在多个错误识别基准测试中显著优于现有的 LLM critics（包括同尺寸的 DeepSeek-R1-distill 模型和 GPT-4o），并且能够通过更详细的反馈更有效地帮助 LLM 生成器修正错误步骤。

两阶段训练方式

第一阶段：监督式微调（SFT）：通过利用 Qwen2.5-72B-Instruct 生成 4.5K 长篇批判作为种子数据进行监督式微调，使模型能够生成包含多视角验证和深入批判的批判内容。
第二阶段：强化学习（RL）：在监督式微调的基础上，进一步通过强化学习优化模型的批判能力。强化学习的数据来源可以是现有的人标注数据（如 PRM800K），也可以是通过蒙特卡洛采样估计正确性自动标注的数据。
#大模型论文分享##大模型##强化学习##监督微调##论文分享##聊聊我眼中的AI#

算法学习交流

全部评论

推荐最新楼层

湖南科技大学算法工程师

点赞回复分享

发布于 09-02 14:38 北京

09-19 19:53

已编辑

广东工业大学 C++

虾皮一面 2025.9.18

有史以来体验最好的一次面试，面试官全程不打断听我瞎扯，而且还思考了我瞎扯的内容。自我介绍项目拷打（第一次有面试官听我讲方案，还指出方案中的不足）gRPC跟HTTP比有什么优势（性能更强；可以像调用本地函数一样调用，节省心智；强类型，HTTP是弱类型）gRPC为什么比HTTP性能更好，gRPC不也是用的HTTP2吗（因为gRPC传输的是 protobuf 二进制数据，相比HTTP传输文本格式的json效率高很多；gRPC用的是HTTP2.0，消除了队头阻塞，而且可以多路复用）实现数据库高可用（主从）数据库主从同步怎么实现的（binlog）为什么用binlog就能同步数据，binlog记录的是什么...

查看28道真题和解析

点赞评论收藏

分享

09-19 12:30

门头沟学院客户端其它

谁偷走了金九银十？

八月份以为是开始没想到是巅峰，九月约面反而少了，每天就是疯狂做测评和AI面试。这周更离谱，一个新的面邀都没有说好的金九银十呢？

我的秋招日记

点赞评论收藏

分享

08-11 19:28

门头沟学院前端工程师

节孝子，启动！

分享一下找实习的历程腾讯 WXG ：一面 4.23（挂）腾讯 IEG：一面 5.12二面 5.14三面 5.19（挂）字节生服：一面 7.18二面 7.22三面 7.29HR 面 8.1offer 8.11终于找到了第一份实习，整体过程还是比较幸运的，希望大家都顺利🙏

rosestll：27 届？

点赞评论收藏

分享

08-12 14:42

华东理工大学 Java

我就点开看了一下😓

驼瑞驰_招募评论官版...：点击就挂，露头就秒

点赞评论收藏

分享

昨天 22:36

门头沟学院 Java

实习疑似被边缘化

鼠鼠已经实习将近1个半月这样了。最近把分好的需求做完后，感觉自己被边缘化。感觉像组里没有活一样，导师也没有主动分配任务。发微信要需求也没回复，后面主动找的他。结果给了dirtyWork：就是写文档，写设计书，测试报告和测试用例。。。这应该都是他自己的活，结果都分配给我了。感觉是被边缘还，到现在还没真正独立一个大模块的开发，都是小需求的优化，或者加新功能。鼠鼠什么时候才能参与到脚手架和工具类开发啊。。。感觉这些才能真正学到东西。算是阶段性吐槽一下吧。

实习生的蛐蛐区

点赞评论收藏

分享

评论

点赞

收藏

招聘动态

奇安信26秋招

AI×安全，破解网络暗战

猿辅导小猿AI智能硬件

2026届校园招聘

亚信安全

2026届校园招聘

FunPlus | 趣加游戏

2026届校园招聘

理想汽车

2026届校园招聘

平安产险科技中心

2026届校园招聘

小天才

2026届校园招聘

金蝶

2026届校园招聘

米哈游2026校园招聘

基恩士

2026秋季校园招聘

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 面试时间长是好事吗？ #

15045次浏览 143人参与

# 入职跑路最快的一次经历 #

2740次浏览 47人参与

# 乐堡互娱校招 #

3514次浏览 70人参与

# 提名点击就挂的公司 #

21196次浏览 114人参与

# 校招谈薪技巧 #

6049次浏览 133人参与

# 拿到offer之后，可以做些什么 #

3508次浏览 49人参与

# 思朗科技求职进展汇总 #

3192次浏览 81人参与

# 双非本科的出路是什么？ #

147834次浏览 1328人参与

# 你在职场中沾染到的“坏”习惯 #

1708次浏览 34人参与

# 国企秋招，你投了吗？ #

1554次浏览 33人参与

# ___岗狗都不干，我干！ #

1268次浏览 19人参与

# 大学四年该怎么过，才不算浪费时间？ #

9705次浏览 67人参与

# 机械/制造每日一题 #

65274次浏览 1060人参与

# 机械人，你在招聘流程中的企业有哪些？ #

31018次浏览 236人参与

# 秋招后遗症 #

32719次浏览 291人参与

# 如何看待应届生身份？ #

148456次浏览 1428人参与

# 你投递的公司有几家约面了？ #

130530次浏览 896人参与

# 生物制药/化工校招攻略 #

58159次浏览 313人参与

# TCL华星光电工作体验 #

4000次浏览 19人参与

# 饿了么求职进展汇总 #

73561次浏览 677人参与

# 你的国庆怎么过 #

34177次浏览 336人参与

# 材料人的华为红黑体验 #

28905次浏览 171人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务