滴滴2025届春招 AI/算法岗位急招【内推码 NTA4mTy】

🏢公司名称:滴滴

🌟内推码:NTA4mTy

算法工程师-L Lab:https://campus.didiglobal.com/campus_apply/didiglobal/96064#/job/965db435-66d8-4f5c-a8ea-011b46c916e4
Al Infra工程师:https://campus.didiglobal.com/campus_apply/didiglobal/96064#/job/f7b31904-ffcc-46ac-974a-64c0b2dcf593

---
算法工程师-L Lab:

职位描述
岗位职责:

1、参与基础大语言模型应用研发;

2、结合机器学习、强化学习等技术优化基础大语言模型;

3、调研并探索SFT/RLHF方向前沿算法、框架,持续提升现有算法的效率与效果。

任职要求:

1、2025届毕业生,本科及以上学历,计算机科学、数学、统计学或相关专业;

2、熟悉Python与深度学习框架,具有良好的编程能力和扎实的数学理论基础;

3、关注行业前沿进展,对技术开发及应用有热情,有自己的想法并乐于挑战自我;

4、良好的沟通能力,跨团队协作能力,具备出色的规划、执行力,强烈的责任感,以及优秀的学习能力和自我驱动力;

5、有相关领域的开源项目、竞赛获奖、顶会论文发表/在投优先。

---
AI Infra工程师:

职位描述
岗位职责:

1.参与滴滴内部 post-training 框架研发,聚焦 LLM + RL 方向,设计框架架构与技术路线,提升其扩展性、稳定性与效率。 

2.优化框架性能,如训练速度、显存占用等,降低训练成本,为 LLM + RL 训练提供有力技术支撑。 

3.协同业务团队,将 LLM 能力在业务场景落地,根据业务需求定制训练方案并评估验证模型。

4.关注行业前沿,引入有价值的技术到公司框架和模型中,探索新算法与方法,推动技术创新。

岗位要求:

1. 2025届毕业生,计算机科学、数学、统计学、自动化等相关专业,本科及以上学历。 

2. 熟悉Post-Training流程,深入了解RL领域,包括但不限于RM、PPO、DPO、GRPO等算法。 

3.具备大模型训练框架开发能力,包括pytorch、megatron等。

4.具备强化学习框架开发能力,包括openRLHF、verl等。

5.具备一线的C++/Python工程能力,精通数据结构和常用算法,掌握各种编译、调试、性能分析工具,,熟悉并行编程(CUDA/Triton等)优先。

面向人群:2025届毕业生,即毕业时间在2024年9月~2025年8月的海内外高校毕业生

岗位列表:https://campus.didiglobal.com/campus_apply/didiglobal/96064#/jobs

详情请登录官网查看岗位JD

#内推##滴滴内推##滴滴春招##滴滴出行##滴滴内推码##滴滴校招内推##滴滴校招#
全部评论

相关推荐

给我面没招了,发点面经攒攒人品~1. 实习拷打2. 选了一个大模型项目进行深挖3. 这个项目里你真正主导的部分是什么?4. 你这个项目到底解决了什么业务问题?原来人工是怎么做的,痛点在哪?5. 你这个 Agent 是问答型、决策型,还是执行型?边界是什么?6. 从用户输入到最终输出,你这套系统的真实链路是什么?7. 哪些环节必须用大模型,哪些环节不用大模型也能做?8. 如果不用 Agent,只用规则、检索、模板 SQL,能做到几成效果?为什么还要上 Agent?9. 你的知识源具体是什么?API 文档、日志、DDL、Wiki 这几类数据里,最难处理的是哪类?10. 你们知识入库前做了哪些预处理?这些步骤分别在解决什么问题?11. 你为什么把 chunk 设成 512?和 128、1024 相比,各自的 trade-off 是什么?12. 你怎么区分“模型上下文长度”和“知识切片长度”这两个概念?13. 如果 top-k 已经召回了正确证据,但模型还是答错了,你怎么判断问题是在检索、排序,还是生成?14. 如果检索结果本身互相冲突,或者证据不充分,你怎么约束模型?15. 你为什么选 QLoRA,而不是全量微调?16. 你这里的 SFT,本质上是在教模型什么?是教知识、风格,还是行为边界?17. 你做 DPO 的时候,chosen 和 rejected 是怎么定义的?18. 如果 chosen 和 rejected 差异太小,会发生什么?19. 你怎么证明 rejected 真的是有效负样本,而不是误杀?20. 你这个 LLM-as-a-Judge 是怎么设计的?rubric 里哪些维度是硬门槛,哪些只是加分项?21. 为什么要做一致性检测 / swap consistency?它防的是哪类偏差?22. 你怎么做 ablation,证明提升真的是 RAG、SFT、DPO 或 Judge 带来的,而不是别的变量?23. 手撕代码  动态规划24.开放题把DPO 跟Judge 思路迁移到一个视频二创场景:如果目标是让模型扮演某个角色,比如孙悟空,你怎么构造 chosen 和 rejected?视频质量和音频质量如果也跟进的话优先级怎么定?
查看22道真题和解析
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务