拼多多 AI Agent 开发二面

1、项目里负责的边界是什么?哪些内容是亲手实现和验证的?

2、如果要做一套可落地的 Agent 评测体系,整体怎么设计?

评测一般要分离线和线上两层。离线评测解决“改动前后谁更好”,线上评测解决“真实用户下效果是否稳定”。离线侧我会先把样本按场景拆开,比如知识问答、工具调用、多轮追问、拒答场景、多语言场景、长文本场景,然后分别看回答正确率、工具调用成功率、检索命中率、拒答准确率和格式稳定性。线上侧看用户行为指标,比如首轮解决率、转人工率、二次追问率、平均耗时、token 成本和异常率。

Agent 不能只看最终答案,通常要拆成三层指标:检索层、决策层、生成层。检索层看有没有召回正确证据,决策层看有没有选对工具和参数,生成层看回答是否基于证据、是否完整、是否存在幻觉。这样一旦效果下降,才能知道是检索问题、路由问题还是生成问题。

3、线上质量波动时,怎么判断是模型问题、检索问题还是 Prompt 问题?

先拆链路看日志,不直接拍脑袋。第一步看输入分布有没有变化,比如 query 是否更长、错别字是否变多、语言分布是否变化;第二步看检索结果,确认召回的 topK 里有没有正确证据,如果没有就是检索问题;第三步看模型输入的上下文构造是否正常,有没有把不相关 chunk 或错误记忆塞进去;第四步看 Prompt 或模板有没有更新,版本切换后是否出现格式漂移或者答非所问;最后再看模型本身,比如版本变动、temperature 调整、限流降级是否发生。

通常线上要保留完整 trace,包括 query、改写结果、召回结果、rerank 结果、最终 prompt、模型版本、输出内容和打分指标。没有这些日志,很难快速定位。

4、多语言场景怎么评估?如何做一套简单可执行的离线评测集?如何覆盖不同语言与类目?

多语言评测不能只把中文题翻译一下就结束,必须覆盖不同语言真实表达习惯。做离线评测集时,先按语言拆,比如中文、英文、东南亚语种,再按业务类目拆,比如商品问答、规则说明、客服场景、售后场景、活动场景。每个语言和类目下都要覆盖高频问题、长尾问题、歧义问题、拒答问题和多轮问题。

一套简单可执行的离线评测集可以先按“语言 × 类目 × 场景类型”做分层抽样,每一层挑一批真实 query,再标注标准答案或证据范围。评测时不只看答案文本是否完全一致,更看是否答对、是否引用了正确证据、是否遵守语言要求。多语言场景还要额外看语言漂移,比如用户用泰语提问,系统不要夹杂过多中文或英文。

5、多模态场景怎么评估?如何检查图文一致性和不编造信息?优先做哪些自动化检查?

多模态评测里最核心的是图文一致性、细节准确性和不编造。图文一致性主要看回答是否真的基于图片内容,比如商品颜色、数量、位置、场景和主体;不编造信息主要看图里没有的内容,模型有没有自己补出来。优先做的自动化检查通常是基础属性核验、OCR 相关核验和图文对齐打分。

比如电商图里常见的自动化检查可以先做这些:商品主色是否识别一致、图里是否只有一个主体、OCR 识别出的数字和文本是否和回答一致、是否出现“图中没有的品牌名/参数/促销信息”。如果业务量大,可以再接一个 VLM 做二次核验,把模型回答和图片再做一次一致性判断。

6、Prompt 和模板怎么管理?如何版本化、如何回滚、如何避免一次改动导致整体波动?

Prompt 和模板一定要像代码一样管理,不能靠人工复制粘贴。常见做法是把系统 Prompt、任务模板、few-shot 样例、工具 schema、拒答规则都拆成模块,做版本号管理,并和模型版本、流量实验绑定。这样出了问题可以快速定位到底是模型变了、Prompt 变了,还是工具定义变了。

回滚一般要做到两个层面:配置级回滚和流量级回滚。配置级回滚就是直接切回上一版模板;流量级回滚就是只回滚某个场景或某个实验桶,而不是全量切换。为了避免一次改动导致全局波动,通常会先小流量灰度,再看关键指标,比如回答正确率、拒答率、转人工率、异常率和 token 成本,没有问题再逐步扩大流量。

7、A/B 实验怎么落地?分桶、周期、显著性怎么处理?遇到大促波动时如何解释实验结果?

A/B 实验首先要保证分桶稳定,不能用户今天在 A,明天在 B。一般按 user_id 或 device_id 做一致性哈希分桶,这样同一个用户在实验周期内始终落在同一个桶。周期上至少要覆盖业务波动的完整周期,比如工作日和周末,不然很容易被时段效应误导。

显著性通常看核心指标的样本量、均值差和置信区间,不能只看单日涨跌。大促期间的波动要单独分析,因为用户结构、问题分布、系统负载都会变,直接把大促期和普通期混着看很容易误判。更稳的做法是分层看

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

昨天 20:22
门头沟学院
点赞 评论 收藏
分享
昨天 23:46
已编辑
腾讯_后台开发(实习员工)
实则已经躺了几个月了想起来牛客还有个号..bg: 211本,1段BAT半年实习+2段中厂实习(实则还有数不清的小厂实习,没待多久就不写了),网安转测试转后端版秋招总结:(2ssp➕3sp➕1🥬  )小红书 offer拼多多 offer腾讯音乐 offer滴滴 offer作业帮 offer招银 offer 烂🥬其他公司简历挂了很多,一面挂了很多,看过我帖子的朋友也知道我曾达成秋招连续 11 次一面挂,黑暗的 9 月经验:1. 秋招要早投我是很早就投了,秋招开了没一周就全投了,总共42次面试。你得有面试的机会才有机会拿 offer有朋友跟我类似bg,晚投了半个月,只有6次面试。。2. 利用面试多补齐简历漏洞比如面试官更想知道你做的需求的价值,需求的上下游是怎么样的,遇到 bug 怎么定位的?每次面试后多总结总结3. 运气太重要了有时没有面试或者拿不到 offer 只是差了点运气,不要觉得自己的能力有问题4. 不要 all in 实习转正本人转正失败,但转正前我就开始准备秋招了身边有朋友 all in 转正直到 11 月,后面还被鸽了,还错过了秋招投递最佳时间感概:从开始实习到现在,转眼已经一年半了,我终于摆脱了实习生的身份。终于混成正职了!记录一下㊗️大家秋招春招实习工作都顺利!
腾讯音乐求职进展汇总
点赞 评论 收藏
分享
评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务