【面经】阿里淘宝闪购 · Agent 算法工程师 · 27届实习一面 时长约 60 分钟

自我介绍后直接进入项目深挖,无技术笔试,全程围绕 Agent 工程经验展开。

Q1:你为何选用 OpenAI Agents SDK 而非开源框架?出于安全合规考量,开源方案是否更合适?

核心考点是框架选型的 trade-off 认知。我说明了 SDK 在 tool 编排稳定性和工程成熟度上的优势,同时承认在企业生产环境中确实应优先评估开源/私有化部署方案,以满足数据不出域要求。面试官对"我知道它的局限"这个态度比较认可。

Q2:你遇到过需要人工强制中断 Agent 执行的情况吗?如何处理 Human-in-the-Loop?

介绍了关键 tool 执行前插入确认节点、置信度低于阈值时暂停并通知人工审核的方案。面试官追问是否在 .md 文件里写了强制停止条件——我说有在 instruction file 中定义 STOP_CONDITION,Agent 每轮 plan 阶段会读取校验。

Q3:在高风险在线环境中,Agent 异常管控方案是什么?

我从四个维度回答:① tool 操作分级(只读/可逆写入/不可逆三类);② 熔断机制(连续 N 次失败自动终止);③ 沙箱与生产隔离;④ 结构化审计日志。

Q4:token 用量规模?长周期对话(间隔数周后继续)如何管理历史?

需要回答每天token用量,我是1M。重点介绍了分层压缩策略:近期原文保留→历史按时间粒度摘要压缩→关键事件结构化存入向量数据库,新会话通过检索相关片段注入 system prompt 完成冷启动。

Q5:对比 OpenClaw(龙虾)和 Hermes 的记忆机制,重点说说 OpenClaw 的分层压缩方案和 .md 文件使用方式。

OpenClaw 以时间轴为轴分层:T-1h 完整保留、T-24h 段落摘要、T-7d 关键词图,结合语义相似度分层召回。Hermes 侧重 episodic memory,双索引但长历史压缩粒度不如前者。我的方案是融合两者,.md 用于 human-in-loop 审查,向量库用于语义检索。

Q6:你的 Agent 还有哪些未充分优化的空间?

当前最大短板是缺闭环反馈。补充的方向:基于 task 完成率的 DPO/PPO 微调 planner;量化 alpha 上线前的历史回测+仿真双验证;多版本 Agent 沙盒 ELO 竞争选优;以及元认知层的自我评分机制。

Q7:除调用 API,你有 SFT 或模型层工作经验吗?

有。基于 BERT(0.1B)做了金融新闻双任务微调(重要性回归 + 情感分类),发布在 HuggingFace Hub,40+ 下载量。这段经历让我在 Agent 的 retrieval 和 re-ranking 模块设计中有直接应用。

Q8:你的 Agent 和别人开发的相比,核心差异是什么?

我说大家模型和框架可能趋同,差距体现在:① 严格的 function schema 校验减少格式错误;② CLI 封装原子化操作,token 消耗降低约 30%;③ 针对业务裁剪 tool 集合,平均 tool call 轮次从 8 降至 4,相比依赖 MCP 通用协议的方案更轻。

Q9(Web3 经历):你在区块链方向做了哪些工作?

① 微信群聊舆情→AI 决策→自动交易全链路;② 基于链上交易图的异质 GNN 团伙操纵识别算法。

反问(面试官回答很真诚):

  • 淘宝闪购 Agent 主要做时空预测(ETA)、内部知识库、人员效能提升和 AI Coding 探索
  • 与外部智能客服的本质区别:服务内部算法团队,核心是算法研发提效和最优化自动化(Auto Research)
  • 技术方向:大模型+运筹+深度学习+强化学习融合,无单一主轴

AI Coding 压轴题:本地 AUC 训练 92%、测试 89%,上线后跌至 62%,从数据/标签/serving 三维给出 8+ 原因并排序

面试官会给你邮箱发邮件,然后用阿里qwen3.5模型回答给出的问题,面试官会追问答案原因,从自身经验回答。

按优先级排序:① Train-Serving 特征分布偏移(最高频根因)→ ② 线上样本分布与训练集不一致 → ③ 特征泄露导致离线 AUC 虚高 → ④ 标签定义口径不一致 → ⑤ Label Delay 问题 → ⑥ 标注噪声线上放大 → ⑦ 模型版本与 feature schema 未对齐 → ⑧ 在线推理精度损失/缺失填充策略不一致

排序依据:数据层 skew 对 AUC 影响幅度最大(可达 10-30%),工业界出现频率最高,因此排在前三;标签问题通常灰度期可被发现;serving 层问题通过日志比对可快速定位,实际频率相对低。

备考提醒: 面试官会持续追问"为什么这么做",准备好每个技术选型的 trade-off 表述比准备"最优答案"更重要。

#阿里##实习面经##AI求职记录##我的求职进度条##发面经攒人品#
全部评论
ai coding是直接与大模型交互吗,我还以为是写代码解决相关问题
点赞 回复 分享
发布于 今天 00:08 湖北
老哥算法做的哪套卷子啊,nlp还是运筹?
点赞 回复 分享
发布于 05-08 10:40 江苏
点赞 回复 分享
发布于 04-30 16:08 浙江

相关推荐

04-28 17:31
已编辑
南京林业大学 后端工程师
发面经 攒人品面完后第二天挂1. 自我介绍2. 讲一下react和plan-excute-replan的使用场景3. 讲一下react和plan-excute-replan的区别(回答了几个面试官觉得不够又追问,不会了)4. 设计agent的时候怎么能在保证效果的前提下减少token消耗?(不会,随便蒙了几条)5. 思考一下有没有其他的方案,能够减少token消耗?(不会,蒙的是特定领域微调和后训练增强模型能力)6. function call、mcp、skill的区别?7.  skills和rules的区别?(不会)8.  大模型调参过程中经常调两个参数,一个是温度,一个是topK,你怎么理解这两个参数?(不会)9.  redis的hash大key怎么优化?10. redis的hash大key优化后怎么兼容老业务老数据?新业务怎么用优化后的缓存?老缓存删不删?11. 为什么业务实际应用中要避免使用threadlocal?(头一次听说要避免使用threadlocal,不会)12. 事务的特性13. 之前实习中最大的难点是什么?jdk用的什么版本?14. java创建一个对象,虚拟机会有哪些变化?JVM的内存会有哪些变化?15. 垃圾回收的触发条件16. TCP怎么保证数据包一定能到达?17. TCP拥塞控制怎么做的?(具体细节忘了)反问:1. 什么业务?- 业务安全中的内容安全相关,检测视频、音频、文字中的违法行为2. 具体涉及哪些工作?运维和开发占比怎么样?- 简单来说要负责所有事情的研发。大概20%运维。80%开发。大模型来了后之前所有的运维的同学全转开发了。
查看17道真题和解析
点赞 评论 收藏
分享
05-04 01:25
门头沟学院 Java
攒攒人品!有面试过同岗的朋友欢迎评论区交流1. 拷打实习2. 并发搜索场景下,主线程起了多个子线程后,怎么和它们通信以知道任务全都做完了?3. 为了提速引入了 Kafka,但 Kafka 本身是异步组件,会不会反而导致任务流转变得更慢?4. 流量变大后,每个任务拆解并发大量消息,Kafka 会不会变成系统的性能瓶颈?(答了限流桶策略、结合业务使用频次限制)5. 扫表和用消息中间件(如 Kafka 双 Topic)管理长时任务状态,各自的优缺点是啥?6. 详细介绍一下你项目里的多智能体协同策略,三层 Agent(Root、Main/Fallback、Sub-Agent)是怎么互相配合流转的?7. 如果主 Agent 决定越过第二层直接调底层的子 Agent,上下文信息是怎么跨层传过去的?(答了通过解析 JSON 传递意图,并共用主线程/连接)8. 补充检索是如何评估数据质量并触发的?你怎么保证二次检索能搜到之前没搜到的内容?9. 怎么避免大模型检索到网上被 AI 批量生成的虚假垃圾数据(防止 GU 投毒)?10. 短期对话记忆和长期记忆分别是怎么提取和存储的?11. 怎么判断当前用户的提问需不需要去 RAG 里检索长期记忆?12. 为什么底层选用了 pgvector 做向量数据库,而不是其他的?13. 为什么在向量检索的基础上还要加 BM25 精确检索?具体解决了什么 bad case?14. 重排序(Rerank)是怎么做的?有没有设置低分阈值做提前过滤操作?15. 传统 CNN 有什么痛点?ResNet 让你印象深刻的核心思想是什么?16. 介绍你最近读过的五篇论文17. 平时拿到一个项目任务,你用 AI 辅助编程的工作流是怎么拆解的?18. 你的AIcoding提示词策略是怎么操作的?人工一般在哪个环节介入审核?
查看17道真题和解析
点赞 评论 收藏
分享
评论
3
14
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务