美团也爱问AI

搜推+大模型算法
一面面试题
SFT & RL 方向
先 answer 后 cot vs 先 cot 后 answer：两种 SFT 范式在训练效果上有什么差异？你是否做过对比实验？
标注质量管控：如何保证人工标注数据的准确率达到预期标准？有哪些校验或质控手段？
Checkpoint 选择：如何挑选合适的 SFT checkpoint，用于后续的 RLHF 阶段？
多模态输入：图片是如何输入到 VLM 模型中的？一张图片通常会被编码为多少个 token？
RL vs SFT：你认为强化学习（RL）和监督微调（SFT）的核心区别是什么？
训练范式选择：为什么不直接从零开始做 RL，而是要采用「SFT → RL」的两阶段流程？
RL 关键机制：什么是重要性采样？为什么在 RL 训练中要引入 CLIP 机制？
策略类型差异：On-policy 和 Off-policy 算法的核心区别是什么？各自的适用场景有哪些？

八股文（Transformer 基础）
因果掩码作用：Transformer Decoder 中为什么必须使用自回归因果掩码？
缩放点积注意力：为什么注意力分数要除以dk？（补充：Layernorm 前置后，除以d可将方差归一到 1，避免 softmax 梯度饱和）

推荐系统方向
生成式推荐 vs 传统推荐：两者的核心区别是什么？生成式推荐的目标是什么？你如何看待它的未来发展前景？
指标计算：AUC、HR、NDCG 的计算公式分别是什么？GAUC 和 AUC 的区别在哪里？
编码方式：如何在模型中加入时间编码和位置编码？常用的位置编码方法有哪些？
Coding：手撕 Multi-Head Attention（MHA）实现

二面面试题
SFT & CoT 细节
概率分布特性：在「先 cot 后 answer」的 SFT 范式下，为什么越靠后的 token 概率（prob）会越高？
蒸馏噪声处理：用大模型蒸馏得到的 CoT 数据存在大量噪声，该如何缓解？
VLM 幻觉问题：对 VLM 做 SFT 时，发现模型更信任文本信息，看图时反而容易产生幻觉，有哪些解决思路？

RL 进阶
PPO 核心：写出 PPO 中 GAE 的公式，并说明如何递归计算每个 token 的优势函数（advantage）？
DPO 损失：写出 DPO 算法的损失函数公式？
算法对比：GRPO 和 PPO 的核心区别是什么？GSPO 和 GRPO 又有哪些不同？
训练稳定性：你遇到过 RL 中的熵塌缩（entropy collapse）和 reward hacking 问题吗？分别有哪些改进方法？最近有哪些新论文提出了新方案？
采样困境：在采样类 RL 算法中，on-policy rollout 无法得到正确答案时该怎么办？
自蒸馏：了解 Self-Distillation 吗？为什么要做自蒸馏？最近这方向有哪些代表性论文？
震荡优化：RL 训练中 reward 或 loss 震荡严重，该如何调整？（提示：可从学习率 lr、KL 散度约束等方向入手）

推荐系统进阶
结构对比：HSTU 和 Transformer 结构的差异是什么？它和 OneRec 的整体流程有什么不同？
SID 优化：如何降低 SID 碰撞率，同时提高特征利用率？
量化算法：RQ-VAE 和 RQ-Kmeans 的算法原理分别是什么？
OneRec 工程：OneRec 中是如何将 SID 加入模型词表和 tokenizer 的？
多模态融合：如何更好地结合文本特征和多模态特征？
模型演进：Rankmixer 是如何发展到 Tokenmixer 的？
Coding：给定一个行内严格递增的 m×n 矩阵，找到矩阵中第 k 大的数 #面试官最爱问的 AI 问题是......#