pure_64 - 个人主页动态 - 牛客网

今天 03:15

门头沟学院算法工程师

蚂蚁实习 AI agent算法二面 1h

攒人品中，祝大家都能拿到满意的Offer！1.项目拷打2. 实习拷打3. 你们选用的训练方法是什么？训练数据具体是怎么构造的？4. 这里的训练过程，我理解是前面有一段医学语料的预训练，然后再加一段对齐过程，是这样吗？5. 关于 SFT 阶段，数据具体是怎么生成的？6. SFT 之后，后面的 DPO 过程又是如何开展的？7. DPO 需要 Chosen 和 Rejected 至少两组对比数据，这两组数据你们是怎么得到的？8. 我们现在这边可能对于医疗业务关系比较远，问一下更加基础的知识。既然谈到 DPO，谈一下 DPO 以及后续其他偏好学习算法的区别，以及各自的优劣。9. 那么 GRPO 算法呢？10. DPO 算法有哪些缺点？11. 谈谈强化学习中 On-policy 和 Off-policy 的区别，你是怎么理解的？12. 看你不仅做训练，还负责基础设施 Infra 的搭建。训练基础设施也是归你亲自搭吗？13. 当时是在哪个项目里面参与 Infra 工作的14. 你刚才提到了 Megatron，你们试过 PyTorch 原生的 FSDP 吗？15. 既然试过 FSDP，为什么最终还是选用了 Megatron？，你们当时的选型考量是什么？16. 既然提到 FSDP 和 DeepSpeed ZeRO 的区别，FSDP 实现了 ZeRO 的哪几个阶段？ZeRO-1, 2 还是 3？17. 探讨一个现实的业务问题：我们核心业务是对话类 Agent 产品。经典架构是前端设有一个意图识别与路由环节，将客户请求分发到不同的子 Agent，由于子 Agent 功能实现完全不同，不能混在一起，所以路由非常关键，一旦路由错误就无法满意回答。另外，作为全链路的必经点，路由必须足够快。我们考虑在最前端用一个相对较小（如 7B 或 13B）的模型，通过后训练使其掌握特定领域知识，实现低延迟的路由。如果让你做这个模型，你会怎么去做？

0 点赞评论收藏

分享

04-11 00:40

门头沟学院算法工程师

小红书推荐算法日常实习一面

发一下问题给大家参考，攒攒人品！1.手撕:岛屿数量2.如果把树模型升级为DNN模型，你会怎么做3.DIN的核心结构是什么4.用户的行为训练在训练的时候需要补齐吗5.embedding如何得到的6.推荐系统整体链路了解吗7.召回、粗排、精排各有什么经典模型

查看7道真题和解析

0 点赞评论收藏

分享

创作者周榜

更多

关注他的用户也关注了：

牛客网
牛客网在线编程
牛客网题解
牛客企业服务