2025-06-14 23:26 门头沟学院自然语言处理发布于上海

关注

DeepCritic：SFT+RL两阶训练显著提升LLM自我监督能力！！

论文题目：DeepCritic: Deliberate Critique with Large Language Models
论文地址：https://arxiv.org/pdf/2505.00662
论文详解：https://mp.weixin.qq.com/s/6eridKO3iB1jO_W8Vwb7cg

文章的核心贡献是提出了一个名为 DeepCritic 的新型两阶段框架，用于开发能够对数学解题过程的每个推理步骤进行深入批判的 LLM critics。实验结果表明基于 Qwen2.5-7B-Instruct 开发的 DeepCritic 模型在多个错误识别基准测试中显著优于现有的 LLM critics（包括同尺寸的 DeepSeek-R1-distill 模型和 GPT-4o），并且能够通过更详细的反馈更有效地帮助 LLM 生成器修正错误步骤。

两阶段训练方式

第一阶段：监督式微调（SFT）：通过利用 Qwen2.5-72B-Instruct 生成 4.5K 长篇批判作为种子数据进行监督式微调，使模型能够生成包含多视角验证和深入批判的批判内容。
第二阶段：强化学习（RL）：在监督式微调的基础上，进一步通过强化学习优化模型的批判能力。强化学习的数据来源可以是现有的人标注数据（如 PRM800K），也可以是通过蒙特卡洛采样估计正确性自动标注的数据。
#大模型论文分享##大模型##强化学习##监督微调##论文分享##聊聊我眼中的AI#

算法学习交流

全部评论

推荐最新楼层

湖南科技大学算法工程师

点赞回复分享

发布于 2025-09-02 14:38 北京

昨天 20:52

已编辑

门头沟学院 Java

2026.4.26 面经学习

StringBuilder和StringBuffer的区别是什么？ StringBuilder 和 StringBuffer 都是用来拼接字符串的可变对象，核心区别是： StringBuilder：线程不安全，性能更高。 StringBuffer：线程安全，方法大多加了 synchronized，性能相对低。 大多数实际开发中更常用 StringBuilder，因为字符串拼接通常发生在方法内部，是局部变量，不会被多个线程共享。 遇到过哪些线程安全问题？ 我遇到过比较典型的线程安全问题是共享变量并发修改导致数据不一致。 比如多个线程同时更新同一个统计值、库存数量、任务状态，如果直接用普通变量或者...

查看11道真题和解析

点赞评论收藏

分享

04-24 08:50

门头沟学院 Java

大厂or小厂?没有绝对的去或不去

先给所有纠结的同学一个核心结论：没有绝对的去或不去，只看你的个人背景、求职阶段、可选的小厂质量，能不能匹配你的秋招目标。大厂实习是加分项，但有质量的小厂实习，永远比简历空白强；而无意义的小厂拧螺丝，不如在家沉下心补项目、冲秋招。结合我带了3届应届生校招的经验，以及今年暑期实习的招聘现状，今天给大家做一份完整的决策指南，从「什么情况该去小厂」「什么情况该死磕大厂」「接了保底offer后大厂发offer怎么选」「小厂怎么挑不踩坑」四个维度，全给大家讲透，应届生直接照着决策就行。一、先搞懂：小厂实习，到底能给你带来什么？又有哪些坑？在做决策之前，你必须先清醒地认识到小厂实习的优劣势，别盲目冲，也别全...

找不到大厂实习可以去小厂...

点赞评论收藏

分享

不愿透露姓名的神秘牛友

04-21 17:34

我真蠢，上班三天才知道mt让看文档啥意思

第一次实习的时候啥也不懂mentor第一天跟我说的。我说好。我以为只是第一天这样。第二天——"你先看看文档。"第三天——"你先看看文档。"第五天我鼓起勇气问："那我后面大概做什么方向？"他说："不急，先熟悉。"我点开过的文档数了数，三十多篇。每一篇我都有认真看实在无聊，我打开同学群看看大家都干啥呢。有人说他入职第一天就改了bug。有人说他mentor每天带他review代码。有人说他们组上周聚餐了。我每天的成就是：又看了五篇文档。上了一周班后，晚上我收工位走出公司，那一刻我突然明白"你先看看文档"是什么意思。不是让我熟悉。是他也不知道让我干嘛。我真的谢

文聚星：说明你这是大厂，小厂才会来了直接上手写

实习时最怕听到的一句话

点赞评论收藏

分享

04-24 14:21

扬州大学广陵学院 Java

这简历能不能抓住春招的尾巴呀😔

点赞评论收藏

分享

04-24 09:20

北京邮电大学嵌入式工程师

从夯到拉机器人嵌入式项目排名

2026春招机器人/嵌入式项目分档盘点结合校招面试真实反馈，以及牛客上百篇机器人/嵌入式岗上岸学长学姐的经验，给大家做了一份2026春招机器人嵌入式项目分档盘点，精确到项目名称、适配岗位、核心亮点、面试加分点、避雷提示，帮大家精准避坑，知道哪些项目闭眼做，哪些项目千万别碰。先给核心分类标准，完全贴合校招面试的考察逻辑：【S级 高含金量】：系统完整+技术前沿+工程化落地，面试差异化拉满，90%的面试官都会感兴趣，闭眼冲【A级 有亮点】：场景明确+有优化深度+易上手，面试有加分，适合补项目经历，放心做【B级 烂大街慎做】：同质化严重+无差异化+demo级，10个应届生9个做，没亮点慎做【C级 纯浪...

点赞评论收藏

分享

评论

点赞

收藏

招聘动态

“联宝杯”

2026 大学生创新大赛

上海人工智能实验室

2026年春季校园招聘

AI网申助手

网申字段一键填写

阿里巴巴集团

2027届实习生校园招聘

招商银行数字金融训练营

火热报名中

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

27届校招宝典

滴滴

2027届秋招储备实习生招聘

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 如果春招能重来，我会___ #

2441次浏览 20人参与

# 你觉得最好用的AI编程工具是_ #

437次浏览 16人参与

# 联宝杯大学生创新大赛，你的技术值得产业级答案 #

26714次浏览 474人参与

# 除了线上，还能去哪些地方投简历 #

1161次浏览 17人参与

# 面试官拷打AI项目都会问什么？ #

758次浏览 22人参与

# 你和你的mentor相处模式是__ #

4370次浏览 31人参与

# mt对你说过最有启发的一句话 #

114826次浏览 867人参与

# 你的mentor是什么样的人？ #

61375次浏览 794人参与

# 你会因为行情，降低找工作标准吗？ #

3292次浏览 25人参与

# 实习第一天，你在干什么 #

2768次浏览 18人参与

# 双非本科的出路是什么？ #

230518次浏览 1655人参与

# 如何排解工作中的焦虑 #

320422次浏览 2741人参与

# 你有哪些缓解焦虑的方法？ #

60693次浏览 914人参与

# 宣讲会你有哪些意向不到的收获 #

25113次浏览 80人参与

# 你收到了团子的OC了吗 #

1603299次浏览 11858人参与

# 一觉醒来，秋招难度下降一万倍…… #

147675次浏览 786人参与

# 哪些公司在招寒假实习？ #

95263次浏览 767人参与

# 0offer互助地 #

774360次浏览 4763人参与

# 你是怎么和mt相处的？ #

103214次浏览 509人参与

# 你想吐槽公司的哪些规定 #

49055次浏览 245人参与

# 打工人的工作餐日常 #

97200次浏览 559人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务