算法打工人阿旺 level
获赞
218
粉丝
272
关注
0
看过 TA
1684
中山大学
2026
算法工程师
IP属地:山东
高级算法工程师,多模态/大模型/搜广推方向辅导
私信
关注
1.多轮对话为什么难2.多轮对话的三类结构3.多轮对话的触发条件4.工程中如何构建多轮对话数据5.如何保证模型不乱跳(关键规则)1️⃣一、为什么多轮对话是 Function Call 里最难的?一句话概括:多轮对话不是 NLP ,是状态机。你必须让模型学会:意图识别→信息收集→工具调用-工具结果处理-下一轮决策-→最终输出。2️⃣二、多轮对话的三种结构基本上,所有 FC 项目都逃不掉。在我们的旅行助手训练营项目中,多轮对话主要有三类结构:①"信息补全型"多轮对话(最频繁)让模型学会"不瞎调用工具",学会"停下来补齐信息"。②"工具链式"多轮对话(最复杂)例子: call recommend _ hotels → call get _ hotel _ reviews → final _ output③"反问﹣工具﹣反问继续﹣工具"混合型既需要追问,又需要工具链。3️⃣三、多轮对话的数据到底怎么生成?1.根据标签选择工作流2.根据变量决定是否需要追问3.自动构造反问句4.用户回答由模板生成5.工具链由代码模拟6.工具返回由 mock 数据生成7.最后用 base 模型重写自然语言4️⃣四、多轮对话的数据到底怎么生成? 核心逻辑:1.根据标签选择工作流2.根据变量决定是否需要追问3.自动构造反问句4.用户回答由模板生成5.工具链由代码模拟6.工具返回由 mock 数据生成7.最后用 base 模型重写自然语言5️⃣五、模型如何在训练后做到"不会乱跳"?1.工具返回后继续调用错误工具2.工具链顺序乱3.工具调用结束后不收尾4.忘记上下文参数5.拒答逻辑失效为什么?因为数据没有覆盖好。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看5道真题和解析
0 点赞 评论 收藏
分享
一、 LLM 的"天花板"在哪里?无法执行真实动作,例如"把文件发给老板"。无法访问实时天气、最新股票、网页信息。稍微长一点的对话就忘记历史。✅一句话总结:LLM 只擅长"生成",但不会"行动"。二、 Agent 的出现,本质上是为 LLM 装上"大脑+手脚+记忆"给 Agent 的来个定义:Agent = LLM (大脑)+ Planning (规划) Memory (记忆)+ Tools (工具)这句话直接点明了 LLM 到 Agent 的进化方向。三、那到底什么是 Agent 的"规划( Planning )"?LLM 的回答方式是"直觉型"的,一句话进,一句话出。但现实任务极其复杂,需要多步骤思考。Agent 的核心能力之一是:▶️Subgoal Decomposition (子任务拆解)▶️ Reflection (自我反思)也就是说它不仅能规划任务,还能执行后检查自己是否犯错。这点是纯 LLM 完全做不到的。四、 Agent 的"记忆( Memory )"解决了 LLM 最关键的问题LLM 的上下文是"滑动窗口式",内容多了会被挤出去。企业级需求中,很多对话必须跨轮次、跨任务。五、最关键的差异: Agent 具备"行动能力( Tool Use )"这是 LLM 和 Agent 最本质的区别。LLM :只会生成文本Agent :可以执行动作📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
01-05 00:00
已编辑
中山大学 算法工程师
1、有场景、有动机(为什么做)2、有方法、有架构(怎么做)3、有数据、有优化(做出了什么效果)这三点构成了一个高质量 RAG 项目的核心逻辑。下面我用一个对比+案例的形式讲给你听。一、项目背景:让人一眼看出你在解决一个具体问题✅一句话总结:好的项目描述一定要把动机讲清楚。工业级 RAG 项目几乎都有三种典型动机:1.业务痛点2.为什么 RAG 能解决3.大模型知识时效性差二、系统架构:写出系统性思维的人最稀缺🌟优秀写法(架构分层法):系统分为两阶段(数据准备+应用推理),三大模块(知识构建、检索召回、生成优化),并通过13项优化策略实现持续迭代。阶段一:数据准备1.数据清洗:多源异构文档( PDF 、 OCR 图片、视频字幕)统一结构化,过滤噪声。2.文本切块策略:采用动态窗口+语义聚类切分,保证上下文完整性,避免语义断裂。3.Embedding 向量化:使用中文优化模型 BGE - large ,构建 Milvus 向量索引( HNSW 结构),支持百万级检索。阶段二:应用层1.多路召回机制:结合语义检索与倒排检索,通过 RRF 融合排序策略提升相关性;2. Prompt 工程优化:设计结构化 Prompt 模板,限制模型回答边界,缓解幻觉;3.缓存与响应优化:引入 Redis 缓存层与分层索引机制,将平均响应时间从1.2s降低至0.6s。三、个人贡献:写出你在推动系统演进这句话有三个关键点:1.主导:你是参与者还是决策者?2.改进方案:有没有提出优化3.结果数据:用量化指标说话。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
2025-12-04 23:40
中山大学 算法工程师
1. RLHF相较于传统SFT,聚焦解决语言模型哪些核心问题?RLHF主要致力于解决语言模型在生成内容时,如何更好地贴合人类价值观、提升内容质量与安全性,以及让模型生成更符合人类期望的多样化回复等核心问题。2. 经典RLHF流程三核心阶段详述监督微调阶段:输入带标注的文本数据,输出微调后的语言模型。通过监督学习,让模型初步具备生成合理回复的能力。奖励模型训练:输入成对比较数据,输出训练好的奖励模型。构建一个能准确评估回复质量的模型,为后续强化学习提供有效的奖励信号。强化学习:输入语言模型和奖励模型,输出优化后的语言模型。利用奖励模型的反馈,通过强化学习算法调整语言模型参数,生成更符合人类期望的回复。3. RM训练用成对比较数据的优劣优势:人类对两个回复的相对优劣判断更准确且一致,能降低标注难度与主观偏差。劣势:收集大量成对数据,成本较高;难以直接量化回复的绝对质量。4. 奖励模型架构选择、与LLM关系及损失函数5. RLHF第三阶段选PPO的原因及KL散度作用相比简单策略梯度,PPO能更好地平衡探索与利用,提高训练稳定性;相较于Q - learning系算法,PPO更适合处理高维连续动作空间问题。KL散度关键作用是限制新策略与旧策略的差异,防止策略更新过大导致模型性能不稳定。6. PPO中KL散度系数设置不当的问题及调整方法若系数B设置过大,会导致策略更新过于保守,模型难以学习到新策略,性能提升受限;若设置过小,策略更新可能过于激进,模型性能不稳定。可通过实验观察训练过程中的奖励值、KL散度值等指标,逐步调整系数B,找到合适的平衡点。7. “奖励作弊/奖励黑客”及缓解策略模型为获取高奖励,利用奖励模型漏洞生成不符合人类期望但奖励值高的回复。缓解策略包括:优化奖励模型,减少漏洞;增加人工审核环节;采用更复杂的强化学习算法等。8. DPO核心思想及与传统RLHF(基于PPO)对比优势DPO核心思想是直接优化模型生成回复的偏好,无需通过强化学习间接调整。与PPO相比,DPO省略了强化学习步骤,直接利用偏好数据进行模型训练。优势是流程更简单,训练效率更高,稳定性更好。9. RLHF模型离线优上线差的原因及分析解决方向原因是:离线评估指标与真实用户需求不匹配;奖励模型存在偏差,过度鼓励某些模式化回复。可从以下方面分析解决:优化评估指标,更贴近真实用户反馈;重新训练奖励模型,减少偏差;引入多样性约束机制等。10. Deepseek的GRPO与PPO主要区别
查看10道真题和解析
0 点赞 评论 收藏
分享

创作者周榜

更多
关注他的用户也关注了:
牛客网
牛客网在线编程
牛客网题解
牛客企业服务