网易算法面试
网易推荐算法面试经历
一面(50分钟)
- 除了Dropout和L1/L2正则化,你还知道哪些防止过拟合的技术(如早停、数据增强、批量归一化)?请分别说明其原理和适用场景。
- 为什么说Dropout在推理时需要对权重进行缩放(Inverted Dropout)?它和标准的Dropout在实现上有什么区别?这样做有什么好处?
- Transformer中的位置编码(Positional Encoding)有什么作用?你了解哪几种实现方式(如绝对位置编码、相对位置编码)?它们各自有什么优缺点?
- Self-Attention和传统的RNN/CNN在处理序列数据时各有什么优势和劣势?在什么场景下你会优先选择Transformer架构?
- 请从贝叶斯先验或几何角度解释L1和L2正则化为什么能防止过拟合,以及为什么L1正则化倾向于产生稀疏解?
- 请详细比较GBDT、XGBoost和LightGBM在实现上的核心差异点,例如树的生长策略、特征分裂算法、并行化处理等。
- 请设计一个电商首页的Feed流推荐系统,从召回、粗排、精排到重排,说明每个环节的目标、可选用的模型以及评估指标。
- 在你做过的推荐项目中,你是如何处理冷启动问题的(用户冷启动/物品冷启动)?请列举几种方案并分析其优缺点。
- 在多目标学习(Multi-Task Learning)的精排模型中,你是如何处理不同目标(如点击率、转化率、观看时长)之间的冲突和关联的?(如MMoE、PLE)
- 核心代码模式算法题:反转字符串
- 请用伪代码或Pytorch/Tensorflow描述如何实现一个双塔召回模型,并说明其损失函数(如in-batch softmax)。
二面(30分钟)
- 深入剖析项目与实习经历
- 如果在线上发现模型的CTR远低于离线评估的AUC,你会从哪些方面去排查问题?
- 对比DeepFM和DCN V2模型,它们在处理特征交叉上各有什么特点和创新?
- 请解释SQL中窗口函数(Window Function)的作用,并举例说明 `ROW_NUMBER()`, `RANK()`, `DENSE_RANK()` 的区别。
- 在Spark中,你是如何处理数据倾斜问题的?请列举至少两种方法并说明其原理。
HR面(30分钟)
- 详细了解实习工作内容
- 进行常规性格与职业规划交流
结果:一个工作日后收到offer