一面先讲了一下做的业务详细问了下两篇论文,讲了之前他们做的一个工作跟我的一篇工作很类似,比较match。讲一下对强化学习的理解,以及你在你做的这个领域的理解。反问建议(没有,各方面都挺好的)二面介绍了一下业务讲一下1作的论文你这个做的比较简单,我们做多轮对话的强化学习,你有什么相关的了解agent相关基础(不会)qwen3如何去调用工具的。deepseek模型的思考内容是由什么标识包裹的你知道现在的推理框架用的什么呢如何通过标识去控制模型思考还是不思考给你一个业务链,怎么去做到在10个点固定不思考,在90个点固定思考,怎么去设计整体的训练。刚刚说的方法是否需要冷启动代码题给一个字符串,求能划分...