唯品会实习面经 NLP

1. 目前实习工作, 为什要用聚类来评估文本向量化表示?
2. DBSCAN算法原理(简历有)
3. 生成模型的的Category不存在预定义集合怎么办
4. UIE+Category具体流程 (实习)
5. 分类评估用的是什么指标
6. bert模型中文本到id转化的过程是怎么样?
7. 现有流行的模型相对于transformer,多头注意力有哪些改进/不同
8. 现有流行的模型相对于transformer,layernorm 层改进/不同
  a. 正态度分布
9. 现有流行的模型相对于transformer,embedding的改进/不同
10. 现有模型之间(chatglm baichuan llama)的不同主要是哪些方面
11. 常见的高效微调方法有哪些(p-tuning v1/v2 prompt-tuning prefix_tuning), 他们是如何做到节省GPU的,GPU上存放的是什么
12. 怎么进行梯度更新的, 有哪些优化函数
13. 现有流行的各个模型的编码方法有了解吗, 有什么不同呢, 简单介绍一下
14. ChatGLM和transformer在编码和注意力方面有哪些区别
15. Lora的降秩是所有都降吗, 还是降哪些?
16. 一般用高效微调来干嘛
17. 序列标注有了解吗, CRF有了解吗
18. 场景题 现有三个词 权重分别是[0.2 0.3 0.5] 可以使用random, 进行k次(亿级别)采样, 设计一个采样算法

反问:
高效微调, GPU是如何存储的?1. 优化参数 2. 梯度参数 3. 模型参数 可以自己查

总结: 面试官人挺好的 和之前面试的感觉不一样 面试过程可以学到很多东西。
还是自己太菜了 还是得练得沉淀
全部评论
你不是在百度实习了吗?为啥还找实习?
点赞 回复 分享
发布于 2024-01-10 20:12 广东

相关推荐

场景:你负责百度搜索“慢病管理”(如糖尿病/高血压)领域运营,用户搜索后平均停留时长从4分钟降至2.5分钟,且点击“权威医疗内容”(公立医院/权威机构)的比例下降10%。题目:请制定提升用户停留时长及权威内容点击占比的方案。追问1:用户停留时长短,可能与“搜索结果内容质量”存在什么具体问题?追问2:如何设计“权威内容标识”以提升点击意愿?(如视觉样式/信任背书)追问3:若需联动“百度健康医典”内容团队,你会提出哪些内容优化建议?场景:你负责百度信息流“股市资讯”内容运营,近1个月用户互动率(评论/转发)下降20%,且“专业投资者”(画像:30-45岁,高学历)留存率下降。题目:请制定提升互动率及专业投资者留存的策略。追问1:专业投资者对“股市资讯”的核心需求是什么?(如时效性/深度分析)当前内容可能缺失什么?追问2:如何设计“用户UGC引导机制”(如让投资者分享观点)?需避免什么风险?追问3:如何通过“标签体系”优化信息流推荐,提升专业用户匹配度?场景:你负责百度健康APP“在线问诊”服务运营,用户“二次问诊”率(30天内复购)仅15%(目标25%),且对“医生响应速度”的投诉率上升。题目:请制定提升二次问诊率及降低响应速度投诉的方案。追问1:从“医患信任关系”角度,二次问诊率低可能的1个核心原因是什么?追问2:如何设计“医生服务评分体系”以激励响应速度提升?(需关联医生收入/曝光)追问3:若资源有限,优先解决“响应速度”还是“二次问诊”?请说明对用户生命周期价值的影响。
点赞 评论 收藏
分享
评论
5
37
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务