无聊的灰太狼在debug

04-15 10:24 蚂蚁集团_测试开发专家

发布于浙江

关注

蚂蚁消费金融-模型基准和评测工程师

毕业时间：2026-11-01~2027-10-31
工作地点：北京,上海,杭州,重庆,成都
职位描述：
1. 评测基准与数据建设：参与构建覆盖多模态、推理、RAG、代码等场景的评测基准，并负责相关评测数据集的策划、构建与质量校验。
2. 自动化评测流程：设计并维护包括准确性、效率、成本在内的评测指标体系，搭建支持持续集成的自动化评测流程。
3. 评测平台与工具研发：参与评测工具与平台的开发，并探索利用AI智能体（Agent）等技术提升数据生产和评测的自动化效率。
4. 性能优化与前沿探索：结合评测任务特点，优化大模型推理框架（如Sglang），提升评测效率；同时跟踪业界前沿评测方法，并应用于实践。

职位要求：
1. 计算机、人工智能、自动化等相关专业；
2. 动手和编程能力优异，精通Python，深入理解机器学习算法与数据结构，熟悉LLM核心算法；
3. 具有良好的学习和沟通能力，有好奇心和责任心，具有钻研精神和团队协作能力；
4. 具有大模型评测、语言大模型、多模态大模型、自然语言处理、AIGC等相关经验优先；
5. 了解主流的大模型评测榜单、评测框架和评测方法优先。

简历投递：nicky.ly@antgroup.com

校招求职吐槽

全部评论

推荐最新楼层

04-15 11:49

蚂蚁集团_研发部_算法工程师-大模型(准入职员工)

蚂蚁集团内推，蚂蚁集团内推码

算法面经：📌【一面】基础八股 + RAG深挖八股：介绍几种Attention（MHA，MQA，GQA）的区别八股：分别讲一下Dense模型和MoE模型以及二者的区别八股：讲一下MoE的路由机制是如何做的？项目：介绍RAG项目，讲一下RAG项目的亮点项目：如果召回的答案不是想要的，该怎么处理？项目：讲一下BM25算法原理项目：是否做过意图识别？如果要做意图识别，可以怎么实现？项目：微调项目是如何模型选型项目：如何做微调的？直接用 PEFT 库，还是用LLama Factory做的？项目：讲一下DPO, PPO, GRPO的原理和区别，写一下DPO loss函数代码题：lc15 三数之和【二面】...

点赞评论收藏

分享

04-11 19:15

门头沟学院算法工程师

蚂蚁Agent算法实习二面攒人品

发点面经攒攒人品～1.实习拷打2.Agent范式了解哪些？3.项目评测是怎么反过来影响训练的？4.选型怎么选的？5.项目上线了吗？6.项目的输出具体是什么？7.项目的评价指标是什么？

查看6道真题和解析

点赞评论收藏

分享

04-15 13:14

广西大学算法工程师

蚂蚁大模型应用开发一面(暑期)

1. 自我介绍2. 如果让你设计一个面向跨境售后纠纷的智能工单中台，整体架构怎么落可以把系统拆成接入层、规则与路由层、会话编排层、模型服务层、工单状态层、证据存储层和审计回放层。接入层处理 IM、邮件、表单和外部 API；规则层做租户隔离、语言识别、风险分级和触发策略；会话编排层维护案件上下文、节点执行历史和工具调用轨迹；模型服务层只负责生成和抽取，不直接持久化状态；状态层维护工单生命周期和人工接管点；证据层保存截图、订单记录、退款日志和模型引用片段；审计层负责回放每一步输入输出，便于定位误判和争议。真正难的点不在“能不能生成回复”，而在于把模型能力约束在可追踪、可回滚、可仲裁的业务流程里。3...

蚂蚁集团一面258人在聊

点赞评论收藏

分享

04-01 15:43

鹤岗师范高等专科学校 Java

蚂蚁国际 antom 二面

一、项目深挖从实习经历里挑一个最能体现技术能力、最有挑战的项目详细聊聊。这个功能整体研发大概多少人参与？在这个项目里压力最大、最棘手的事情是什么？你做了哪些重要的设计决策，这些决策带来了什么效果？更新数据库状态和推送不是原子操作，你当时是怎么权衡的？想保证这两个异步操作绝对一致性，有什么办法？延伸场景：先写数据库 A 再写数据库 B，要求同时成功 / 同时失败，怎么设计？项目用户量、QPS 大概多少？有出现客户投诉吗？功能上线后怎么验证、保证系统稳定？出现异常需要线上应急吗？你设置了哪些告警指标？从现在视角看，你会设置哪些指标观测系统稳定性？二、Full GC 问题排查介绍下当时遇到的 Full GC 问题，以及完整排查过程。三、AI & Web Coding 相关如果用 Web Coding 写这个系统，你会怎么设计提示词？AI 生成代码不可控，你怎么约束、确保符合预期？有没有试过用 Web Coding 写项目，过程中最大问题是什么？业界怎么解决 AI 思考慢、反复出错的问题？有没有考虑用 AI 做测试用例提效，做 TDD 开发？如果设计一个 AI 研发 + 测试的协作 team，怎么设计？研发 Agent 和测试 Agent 之间怎么交互，避免越改越偏？大模型上下文有限，Claude 类产品怎么保证长代码迭代不丢失注意力？四、职业规划 & 行业选择工作之后的职业规划是怎样的？想从事什么行业 / 业务场景，为什么？了解蚂蚁国际是做什么的吗，为什么投这个岗位？五、算法 & 限流（核心编程题）手撕实现滑动窗口限流（1 分钟级别）。单机限流会有什么问题？多线程场景下，单机限流是否还有效？扩展为集群全局限流，怎么调整逻辑？用 Redis 做全局限流，会选用哪种方案？

查看30道真题和解析

点赞评论收藏

分享

04-15 16:50

门头沟学院算法工程师

蚂蚁暑期模型基准和评估面经

时长:30min(应该是我比较菜)自我介绍，对Agent项目拷打20min，几个关键问题没有回答的很好，这时候就感觉寄了。回答的不太好的问题。1.整个系统为什么这么设计，解决了什么问题？之前的方法没有解决吗？2.短期记忆具体是怎么用的，效果怎么测？3.怎么判断上下文过长，具体?一些知识性考察：1.Deepseek是怎么做负载均衡的？2.设计一个Agent要考虑哪些方面，怎么设计？

查看6道真题和解析

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# AI时代还有必要刷leetcode吗？ #

30516次浏览 394人参与

# 大学生该如何认清当下的就业环境？ #

161575次浏览 867人参与

# 有哪些公司在面试时考察AICoding？ #

17500次浏览 331人参与

# 美团开奖 #

407493次浏览 1805人参与

# HR面都在聊什么？ #

12482次浏览 153人参与

# 运营来爆料 #

98641次浏览 508人参与

# 想从事Agent应该学习哪些技术？ #

7549次浏览 256人参与

# OPPO求职进展汇总 #

808549次浏览 5441人参与

# 校招生月薪1W算什么水平 #

143168次浏览 492人参与

# 你觉得什么岗位会被AI替代 #

56969次浏览 369人参与

# 26届春招投递记录 #

3334次浏览 38人参与

# 从投递到OC，你用了多久 #

22077次浏览 227人参与

# 什么人最适合大厂？ #

11859次浏览 122人参与

# 父母问你工作找得怎么样，怎么回 #

21647次浏览 256人参与

# 哪些公司面试还在问八股？ #

12938次浏览 112人参与

373581次浏览 2921人参与

# 百度工作体验 #

325136次浏览 2247人参与

# 我与AI的日常 #

3174次浏览 16人参与

# 实习最想跑路的瞬间 #

137527次浏览 762人参与

# 我的求职进度条 #

1098594次浏览 7896人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务