DeepCritic:SFT+RL两阶训练显著提升LLM自我监督能力!!

论文题目:DeepCritic: Deliberate Critique with Large Language Models
论文地址:https://arxiv.org/pdf/2505.00662
论文详解:https://mp.weixin.qq.com/s/6eridKO3iB1jO_W8Vwb7cg

文章的核心贡献是提出了一个名为 DeepCritic 的新型两阶段框架,用于开发能够对数学解题过程的每个推理步骤进行深入批判的 LLM critics。实验结果表明基于 Qwen2.5-7B-Instruct 开发的 DeepCritic 模型在多个错误识别基准测试中显著优于现有的 LLM critics(包括同尺寸的 DeepSeek-R1-distill 模型和 GPT-4o),并且能够通过更详细的反馈更有效地帮助 LLM 生成器修正错误步骤。

两阶段训练方式
第一阶段:监督式微调(SFT):通过利用 Qwen2.5-72B-Instruct 生成 4.5K 长篇批判作为种子数据进行监督式微调,使模型能够生成包含多视角验证和深入批判的批判内容。
第二阶段:强化学习(RL):在监督式微调的基础上,进一步通过强化学习优化模型的批判能力。强化学习的数据来源可以是现有的人标注数据(如 PRM800K),也可以是通过蒙特卡洛采样估计正确性自动标注的数据。
#大模型论文分享##大模型##强化学习##监督微调##论文分享##聊聊我眼中的AI#
全部评论
点赞 回复 分享
发布于 09-02 14:38 北京

相关推荐

8.21二面 依旧很多大模型相关问题1. 你理解 ThreadLocal 的考点是什么?2. 如何避免线程本地变量导致的内存泄漏?3. try/finally 里 ThreadLocal 要不要手动 remove 掉?4. 本地缓存为什么设置 5 秒?为什么不是别的值?5. 你们是怎么做压测验证的?6. 遇到大促、流量峰值时,如果写操作集中发生,缓存和 DB 一致性如何保证?7. 你在项目里具体负责哪些模块?(缓存 / 对账 / CRUD 等)8. 你现在做的 SDK 具体解决什么问题?9. 老系统和新系统为什么要做迁移?老系统有什么问题?10. 新架构是谁主导设计的?为什么是单体架构?11. 你总结一下你做的三个核心点?12. 你还要负责老逻辑迁移到新系统吗?13. 对大模型(AI/LLM)方面的理解:14. 你怎么看大模型对工作的影响?15. 在你们内容审核业务里,AI 是怎么应用的?16. 你平时在实习里可以使用例如 ChatGPT、Claude、Copilot 之类的工具吗?17. 你个人平时常用哪些模型?(比如 GPT、Claude、通义千问、Gemini)18. 你怎么看像 AI Agent、RAG、MCP 等这些最近很火的概念?19. 你自己有没有实践过 Prompts 的设计?能举一个案例吗?20. 你会怎么验证 / 监控 Prompt 的正确性?如果模型输出结果和预期格式不一致,你们怎么处理?21. 你们上线前会不会评估 Prompt 的效果?怎么测试?22. 你对未来职业的规划是什么?想在技术还是管理上走?23. 你更看重深度还是广度?打算怎么平衡?24. 你对杭州的工作地点接受吗?
发面经攒人品
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务