字节搜推算法一面 被拷打麻了
给我面没招了,发点面经攒攒人品~
1.项目拷打
2.样本如果都不一致了,降噪剔除后的离线 AUC 到底是怎么算出来的?
3.讲讲长短序列建模的落地方案?
4.做 SIM 过滤时,类目到底是用 Target 还是用户预估的?
5.你们重排只用了 MMR 吗?有没有试过更复杂的方法?
6.怎么衡量 MMR 的相似度?为什么不用 BERT 这种纯语义模型去提 Embedding?
7.打散通常会提升多样性体验,但你们测试下来人均 IPV(点击量)反而降了,怎么解释这种现象?
8.详解 Transformer 里的 Multi-head Attention 机制?为什么要用多头?
9.训练时发生梯度消失或者梯度爆炸,怎么排查?怎么解决?
10.详细对比 Batch Norm 和 Layer Norm?(LN 主要是特征维度归一化,Transformer 必考,我这里答得有点磕巴,大家一定要记牢)
11.做完全均匀的随机负采样,对整体 AUC 的期望会有影响吗?为什么?
12.了解大模型的 Scaling Law(缩放定律)吗?
最后两道手撕:
最大子数组和(LC 53)
无重复数组的全排列(LC 46)
1.项目拷打
2.样本如果都不一致了,降噪剔除后的离线 AUC 到底是怎么算出来的?
3.讲讲长短序列建模的落地方案?
4.做 SIM 过滤时,类目到底是用 Target 还是用户预估的?
5.你们重排只用了 MMR 吗?有没有试过更复杂的方法?
6.怎么衡量 MMR 的相似度?为什么不用 BERT 这种纯语义模型去提 Embedding?
7.打散通常会提升多样性体验,但你们测试下来人均 IPV(点击量)反而降了,怎么解释这种现象?
8.详解 Transformer 里的 Multi-head Attention 机制?为什么要用多头?
9.训练时发生梯度消失或者梯度爆炸,怎么排查?怎么解决?
10.详细对比 Batch Norm 和 Layer Norm?(LN 主要是特征维度归一化,Transformer 必考,我这里答得有点磕巴,大家一定要记牢)
11.做完全均匀的随机负采样,对整体 AUC 的期望会有影响吗?为什么?
12.了解大模型的 Scaling Law(缩放定律)吗?
最后两道手撕:
最大子数组和(LC 53)
无重复数组的全排列(LC 46)
全部评论
相关推荐
查看13道真题和解析 点赞 评论 收藏
分享