蚂蚁消费金融-模型基准和评测工程师

毕业时间:2026-11-01~2027-10-31
工作地点:北京,上海,杭州,重庆,成都
职位描述:
1. 评测基准与数据建设:参与构建覆盖多模态、推理、RAG、代码等场景的评测基准,并负责相关评测数据集的策划、构建与质量校验。
2. 自动化评测流程:设计并维护包括准确性、效率、成本在内的评测指标体系,搭建支持持续集成的自动化评测流程。
3. 评测平台与工具研发:参与评测工具与平台的开发,并探索利用AI智能体(Agent)等技术提升数据生产和评测的自动化效率。
4. 性能优化与前沿探索:结合评测任务特点,优化大模型推理框架(如Sglang),提升评测效率;同时跟踪业界前沿评测方法,并应用于实践。

职位要求:
1. 计算机、人工智能、自动化等相关专业;
2. 动手和编程能力优异,精通Python,深入理解机器学习算法与数据结构,熟悉LLM核心算法;
3. 具有良好的学习和沟通能力,有好奇心和责任心,具有钻研精神和团队协作能力;
4. 具有大模型评测、语言大模型、多模态大模型、自然语言处理、AIGC等相关经验优先;
5. 了解主流的大模型评测榜单、评测框架和评测方法优先。

简历投递:nicky.ly@antgroup.com
全部评论

相关推荐

一、项目深挖从实习经历里挑一个最能体现技术能力、最有挑战的项目详细聊聊。这个功能整体研发大概多少人参与?在这个项目里压力最大、最棘手的事情是什么?你做了哪些重要的设计决策,这些决策带来了什么效果?更新数据库状态和推送不是原子操作,你当时是怎么权衡的?想保证这两个异步操作绝对一致性,有什么办法?延伸场景:先写数据库 A 再写数据库 B,要求同时成功 / 同时失败,怎么设计?项目用户量、QPS 大概多少?有出现客户投诉吗?功能上线后怎么验证、保证系统稳定?出现异常需要线上应急吗?你设置了哪些告警指标?从现在视角看,你会设置哪些指标观测系统稳定性?二、Full GC 问题排查介绍下当时遇到的 Full GC 问题,以及完整排查过程。三、AI & Web Coding 相关如果用 Web Coding 写这个系统,你会怎么设计提示词?AI 生成代码不可控,你怎么约束、确保符合预期?有没有试过用 Web Coding 写项目,过程中最大问题是什么?业界怎么解决 AI 思考慢、反复出错的问题?有没有考虑用 AI 做测试用例提效,做 TDD 开发?如果设计一个 AI 研发 + 测试的协作 team,怎么设计?研发 Agent 和测试 Agent 之间怎么交互,避免越改越偏?大模型上下文有限,Claude 类产品怎么保证长代码迭代不丢失注意力?四、职业规划 & 行业选择工作之后的职业规划是怎样的?想从事什么行业 / 业务场景,为什么?了解蚂蚁国际是做什么的吗,为什么投这个岗位?五、算法 & 限流(核心编程题)手撕实现滑动窗口限流(1 分钟级别)。单机限流会有什么问题?多线程场景下,单机限流是否还有效?扩展为集群全局限流,怎么调整逻辑?用 Redis 做全局限流,会选用哪种方案?
查看30道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务