26秋招大模型算法京东一面
1. 项目介绍
2. LoRA 和 Prefix Tuning 的区别?在什么场景下选择 LoRA?
3. 如果要用 LoRA 做电商推荐场景的微调,你会怎么设计数据和标签?
4. GRPO 和 PPO 的区别在哪?GRPO 的优化目标函数怎么写?
5. 搜索中 RAG 的向量检索会受到长尾商品影响,你会如何缓解?
6. 如果商品知识库实时更新,你怎么保证 RAG 的召回结果和库存一致?
7. Reflection 机制里,如何判断一个 Agent 的失败是由知识缺失还是工具调用错误引起的?
8. Toolformer 中通过自监督学习生成 tool call 数据,这个训练范式和 RLHF 的差别在哪里?为什么它更容易泛化?
9. 语义歧义(如“苹果”既是品牌也是水果)在搜索链路中通常怎么建模?多义词消解和上下文建模的核心方法分别是什么?
10. 算法题:实现 LRU
2. LoRA 和 Prefix Tuning 的区别?在什么场景下选择 LoRA?
3. 如果要用 LoRA 做电商推荐场景的微调,你会怎么设计数据和标签?
4. GRPO 和 PPO 的区别在哪?GRPO 的优化目标函数怎么写?
5. 搜索中 RAG 的向量检索会受到长尾商品影响,你会如何缓解?
6. 如果商品知识库实时更新,你怎么保证 RAG 的召回结果和库存一致?
7. Reflection 机制里,如何判断一个 Agent 的失败是由知识缺失还是工具调用错误引起的?
8. Toolformer 中通过自监督学习生成 tool call 数据,这个训练范式和 RLHF 的差别在哪里?为什么它更容易泛化?
9. 语义歧义(如“苹果”既是品牌也是水果)在搜索链路中通常怎么建模?多义词消解和上下文建模的核心方法分别是什么?
10. 算法题:实现 LRU
全部评论
相关推荐
点赞 评论 收藏
分享

京东工作强度 409人发布