快手推荐算法实习三面 感觉好难

欢迎友好讨论,信息共享
1. 多任务模型中CTR/CVR/时长预测任务的关系?如何解决任务冲突?
2. 特征重要度计算:Permutation Importance和SHAP值的区别?哪种更适合深度模型?
3. 高基数类别特征(如UserID)的Embedding维度如何确定?
4. 实验指标:AUC提升但线上CTR未涨,可能原因?(数据分布差异、特征穿越等)
5. 多模态特征(文本/图像)如何融入推荐模型?
6. MMoE中Expert数量的选择依据?(业务任务数、模型容量等)
7. 多任务学习的"跷跷板现象"解决方案:PLE结构比MMoE改进在哪?
8. 负采样对CTR预估的影响?如何校准采样后的预估值?(通过采样率调整logit)
9. GAUC的计算公式?相比AUC的优势?
10. 实时推荐系统中如何保证特征一致性?(特征快照+版本控制)
11. 逆序对数量(归并排序变种)
12. 带权重的随机抽样
全部评论

相关推荐

1️⃣PPO 与 GRPO 在 token 级别进行优化在实际中我们通常用回复的完整内容来评价模型,但 PPO 与 GRPO 却用逐词的方法来训练。 PPO 和 GRPO 是对模型输出的 token 逐个优化,这种做法的本意是更精细的优化。但论文指出在大模型长文本的场景下,就容易引入噪声和奖励偏差,导致模型训练迷失方向。 GSPO 的核心思路就是把奖励和优化目标重新对齐,从给每个 token 打分,改为直接对整个句子打分。这种切换带来的好处具体为·训练更稳定。 GSPO 直接对整句进行训练,减少了词级波动带来的训练噪声。·训练更高效, GSPO 根据句子的分筛选样本,仅保留高质量纯净的样本参与优化,让模型更快收敛,效果更好。2️⃣GRPO 在MOE上难以收敛?由于 MoE 每次推理只激活少数几个专家模块,虽然效率更高,但新旧策略的 Router 可能发生变化,导致新旧策略激活了不同的专家。比如:·在旧策略下, Router 激活了【专家 A 】和【专家 C 】·在新策略下, Router 激活了【专家 B 】和【专家 D 】模型更新后,实际参与计算的专家组合可能完全不同,导致两个概率的生成基础存在结构差异,重要性比率失真急剧上升,所以 Clip 会被频繁地触发,导致梯度也严重失真。当高方差噪声渗入训练梯度后,还会模型不可逆崩溃,即使回退到历史检查点、调整裁剪范围或者修改生成长度后也无法恢复训练稳定性。理想的重要性比率本应仅反映同一模型结构下参数变化带来的输出差异,但时的比率还混入了不同专家组合的影响,就会带来高方差导致训练崩溃。3️⃣GSPO 可能存在什么不足?1.若以整个 response 的重要性权重均值作为裁剪依据,则少数极端值很容易拉高或拉低均值,可能会导致整个 response 被误弃。在很多情况下,只需裁剪少量异常 token 即可修复该响应,但 GSPO 的做法却直接丢弃全部信息,导致采样数据的利用率降低,造成数据浪费。2.即使在那些极端值不多、整体权重较为平缓的response 中, GSPO 仍保留所有 token 参与训练。这显然违背了 PPO - Clip 中引入 token mask 的初衷,那就是屏蔽的那些在 advantage 更新方向上已显著偏离原始策略的 token 。若继续使用这些 token ,反而可能干扰模型训练的稳定性。3.论文中还提到, GSPO 的裁剪 token 数量约为 GRPO 的100倍。原本 token - level 的裁剪比例极低(约0.1%),而在 response - level 方法中,只要一个 group 中有一个 response 被整体丢弃, clip ratio 就会急剧上升。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务