算法打工人阿旺 level
获赞
205
粉丝
268
关注
0
看过 TA
1647
中山大学
2026
算法工程师
IP属地:山东
高级算法工程师,多模态/大模型/搜广推方向辅导
私信
关注
1. RLHF相较于传统SFT,聚焦解决语言模型哪些核心问题?RLHF主要致力于解决语言模型在生成内容时,如何更好地贴合人类价值观、提升内容质量与安全性,以及让模型生成更符合人类期望的多样化回复等核心问题。2. 经典RLHF流程三核心阶段详述监督微调阶段:输入带标注的文本数据,输出微调后的语言模型。通过监督学习,让模型初步具备生成合理回复的能力。奖励模型训练:输入成对比较数据,输出训练好的奖励模型。构建一个能准确评估回复质量的模型,为后续强化学习提供有效的奖励信号。强化学习:输入语言模型和奖励模型,输出优化后的语言模型。利用奖励模型的反馈,通过强化学习算法调整语言模型参数,生成更符合人类期望的回复。3. RM训练用成对比较数据的优劣优势:人类对两个回复的相对优劣判断更准确且一致,能降低标注难度与主观偏差。劣势:收集大量成对数据,成本较高;难以直接量化回复的绝对质量。4. 奖励模型架构选择、与LLM关系及损失函数5. RLHF第三阶段选PPO的原因及KL散度作用相比简单策略梯度,PPO能更好地平衡探索与利用,提高训练稳定性;相较于Q - learning系算法,PPO更适合处理高维连续动作空间问题。KL散度关键作用是限制新策略与旧策略的差异,防止策略更新过大导致模型性能不稳定。6. PPO中KL散度系数设置不当的问题及调整方法若系数B设置过大,会导致策略更新过于保守,模型难以学习到新策略,性能提升受限;若设置过小,策略更新可能过于激进,模型性能不稳定。可通过实验观察训练过程中的奖励值、KL散度值等指标,逐步调整系数B,找到合适的平衡点。7. “奖励作弊/奖励黑客”及缓解策略模型为获取高奖励,利用奖励模型漏洞生成不符合人类期望但奖励值高的回复。缓解策略包括:优化奖励模型,减少漏洞;增加人工审核环节;采用更复杂的强化学习算法等。8. DPO核心思想及与传统RLHF(基于PPO)对比优势DPO核心思想是直接优化模型生成回复的偏好,无需通过强化学习间接调整。与PPO相比,DPO省略了强化学习步骤,直接利用偏好数据进行模型训练。优势是流程更简单,训练效率更高,稳定性更好。9. RLHF模型离线优上线差的原因及分析解决方向原因是:离线评估指标与真实用户需求不匹配;奖励模型存在偏差,过度鼓励某些模式化回复。可从以下方面分析解决:优化评估指标,更贴近真实用户反馈;重新训练奖励模型,减少偏差;引入多样性约束机制等。10. Deepseek的GRPO与PPO主要区别
查看10道真题和解析
0 点赞 评论 收藏
分享
1. 自我介绍及项目阐述:请先做一个简单的自我介绍,然后详细介绍一下你参与过的相关项目。2. 语义理解相关:在搜索链路里,像“苹果”这种既代表品牌又代表水果的语义歧义情况,通常是如何进行建模的?另外,多义词消解和上下文建模的核心方法分别是什么?3. Toolformer 与 RLHF 对比:Toolformer 采用自监督学习来生成 tool call 数据,这种训练范式和 RLHF 存在哪些差别?并且,为什么 Toolformer 更容易实现泛化呢?4. Reflection 机制判断问题:在 Reflection 机制中,我们该如何判断一个 Agent 执行失败是由于知识缺失,还是工具调用错误导致的呢?5. RAG 与库存一致性:假如商品知识库是实时更新的,那么要怎样保证 RAG 的召回结果和库存信息保持一致呢?6. RAG 长尾商品问题:在搜索场景中,RAG 的向量检索容易受到长尾商品的影响,针对这个问题,你会采取什么措施来缓解呢?7. GRPO 与 PPO 对比:GRPO 和 PPO 之间的区别体现在哪些方面?另外,GRPO 的优化目标函数应该怎么写呢?8. LoRA 电商推荐场景设计:如果要运用 LoRA 来对电商推荐场景进行微调,你会如何设计相应的数据和标签呢?9. LoRA 与 Prefix Tuning 对比:LoRA 和 Prefix Tuning 有哪些区别?在什么样的场景下会选择使用 LoRA 呢?10.算法题:请实现一个 LRU 缓存机制。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看10道真题和解析
0 点赞 评论 收藏
分享
1. 详细讲讲你第一个实习项目的内容和背景。2. 你们采用的是四塔结构(多目标建模),相比传统的双塔结构(用户塔+商品塔),它的优势体现在哪些方面?带来了哪些实际提升?3. 离线流程是如何设计的?线上服务调用离线结果时,是实时更新还是按固定周期刷新?4. 用户塔中用了哪些特征?模型上线后,你们重点监控了哪些指标?比如场景内的表现,以及跨类目的泛化能力等。5. 多模态特征的维度大概是多少?为什么加入多模态特征后,全量上线效果显著提升?6. 在商品塔中引入多模态 encoder 后,为什么离线评估效果反而下降了?你们有分析原因吗?7. 讲讲你参与的第二个项目。这个项目中特征工程是如何优化的?混合负采样策略是怎么设计的?损失函数选的是什么?有没有尝试不同的激活函数?效果如何?8. 在模型迭代过程中,有没有尝试其他结构,比如专家网络(如 MMoE)?效果如何?9. 基础知识点:- 如何有效防止模型过拟合?- Transformer 的基本结构是怎样的?- 决策树的构建原理:基尼指数、信息增益率的计算公式?它们分别代表什么?是越大越好还是越小越好?节点如何划分?树的深度如何控制?如果树太深了怎么办?- GBDT 相比传统决策树做了哪些改进?10. 编程题:给定一个升序排列的数组和一个目标值,编写函数找出该值在数组中出现的起始位置和结束位置。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享

创作者周榜

更多
关注他的用户也关注了:
牛客网
牛客网在线编程
牛客网题解
牛客企业服务