虾皮二面,后端
- 实习项目解决了什么问题?
- 生成式项目的应用场景是什么样的,后续还要经过粗排吗?
- 生成式模型怎么评估离线效果和在线效果?
- 有没有看过生成式模型的冷启动性能?
- 有没有看过生成物品与用户历史点击序列的相关性?这个生成的物品有没有含义?
- 了解哪些召回的负采样策略?
- 召回的随机采样和batch内采样有什么优劣?能不能只用batch内采样,不用随机采样?
- 粗排和精排有没有SSB问题?
- 精排需要补充未曝光样本作为负样本吗?答:实践表明一般不需要处理,没有明显的效果提升。
- 对于一个MLP模型如何评估特征的重要性?是否了解gate方法,如senet和masknet网络?
- 在推荐场景下,id类特征是很重要的,对于一个新的id,有哪些embedding的初始化方法?
- 如果现在删掉id特征,可以补充哪些其他的特征?答:一般会补充一些文本/图片等多模态特征
- 线上线下auc不一致有哪些可能的原因,一般从哪些角度检查?
- 为什么会出现特征穿越?哪些特征容易穿越?
- 混排问题:首页推荐可能会包含自然卡和广告卡,希望广告卡能占到总卡位的一半。但是有些用户可能对广告卡很敏感,无论出多少张广告卡都不会点。所以应该怎么推荐,能够在保证推荐效果的前提下,保证广告卡数量也占到一半。
手撕
- 给定一个字符串s和一个有效单词列表,要求s分割后的所有子串都是有效的单词,输出所有的分割方案。
- 时间复杂度分析