03-22 14:55 广西大学算法工程师发布于河北

关注

拼多多 AI Agent 开发二面

1、项目里负责的边界是什么？哪些内容是亲手实现和验证的？

2、如果要做一套可落地的 Agent 评测体系，整体怎么设计？

评测一般要分离线和线上两层。离线评测解决“改动前后谁更好”，线上评测解决“真实用户下效果是否稳定”。离线侧我会先把样本按场景拆开，比如知识问答、工具调用、多轮追问、拒答场景、多语言场景、长文本场景，然后分别看回答正确率、工具调用成功率、检索命中率、拒答准确率和格式稳定性。线上侧看用户行为指标，比如首轮解决率、转人工率、二次追问率、平均耗时、token 成本和异常率。

Agent 不能只看最终答案，通常要拆成三层指标：检索层、决策层、生成层。检索层看有没有召回正确证据，决策层看有没有选对工具和参数，生成层看回答是否基于证据、是否完整、是否存在幻觉。这样一旦效果下降，才能知道是检索问题、路由问题还是生成问题。

3、线上质量波动时，怎么判断是模型问题、检索问题还是 Prompt 问题？

先拆链路看日志，不直接拍脑袋。第一步看输入分布有没有变化，比如 query 是否更长、错别字是否变多、语言分布是否变化；第二步看检索结果，确认召回的 topK 里有没有正确证据，如果没有就是检索问题；第三步看模型输入的上下文构造是否正常，有没有把不相关 chunk 或错误记忆塞进去；第四步看 Prompt 或模板有没有更新，版本切换后是否出现格式漂移或者答非所问；最后再看模型本身，比如版本变动、temperature 调整、限流降级是否发生。

通常线上要保留完整 trace，包括 query、改写结果、召回结果、rerank 结果、最终 prompt、模型版本、输出内容和打分指标。没有这些日志，很难快速定位。

4、多语言场景怎么评估？如何做一套简单可执行的离线评测集？如何覆盖不同语言与类目？

多语言评测不能只把中文题翻译一下就结束，必须覆盖不同语言真实表达习惯。做离线评测集时，先按语言拆，比如中文、英文、东南亚语种，再按业务类目拆，比如商品问答、规则说明、客服场景、售后场景、活动场景。每个语言和类目下都要覆盖高频问题、长尾问题、歧义问题、拒答问题和多轮问题。

一套简单可执行的离线评测集可以先按“语言 × 类目 × 场景类型”做分层抽样，每一层挑一批真实 query，再标注标准答案或证据范围。评测时不只看答案文本是否完全一致，更看是否答对、是否引用了正确证据、是否遵守语言要求。多语言场景还要额外看语言漂移，比如用户用泰语提问，系统不要夹杂过多中文或英文。

5、多模态场景怎么评估？如何检查图文一致性和不编造信息？优先做哪些自动化检查？

多模态评测里最核心的是图文一致性、细节准确性和不编造。图文一致性主要看回答是否真的基于图片内容，比如商品颜色、数量、位置、场景和主体；不编造信息主要看图里没有的内容，模型有没有自己补出来。优先做的自动化检查通常是基础属性核验、OCR 相关核验和图文对齐打分。

比如电商图里常见的自动化检查可以先做这些：商品主色是否识别一致、图里是否只有一个主体、OCR 识别出的数字和文本是否和回答一致、是否出现“图中没有的品牌名/参数/促销信息”。如果业务量大，可以再接一个 VLM 做二次核验，把模型回答和图片再做一次一致性判断。

6、Prompt 和模板怎么管理？如何版本化、如何回滚、如何避免一次改动导致整体波动？

Prompt 和模板一定要像代码一样管理，不能靠人工复制粘贴。常见做法是把系统 Prompt、任务模板、few-shot 样例、工具 schema、拒答规则都拆成模块，做版本号管理，并和模型版本、流量实验绑定。这样出了问题可以快速定位到底是模型变了、Prompt 变了，还是工具定义变了。

回滚一般要做到两个层面：配置级回滚和流量级回滚。配置级回滚就是直接切回上一版模板；流量级回滚就是只回滚某个场景或某个实验桶，而不是全量切换。为了避免一次改动导致全局波动，通常会先小流量灰度，再看关键指标，比如回答正确率、拒答率、转人工率、异常率和 token 成本，没有问题再逐步扩大流量。

7、A/B 实验怎么落地？分桶、周期、显著性怎么处理？遇到大促波动时如何解释实验结果？

A/B 实验首先要保证分桶稳定，不能用户今天在 A，明天在 B。一般按 user_id 或 device_id 做一致性哈希分桶，这样同一个用户在实验周期内始终落在同一个桶。周期上至少要覆盖业务波动的完整周期，比如工作日和周末，不然很容易被时段效应误导。

显著性通常看核心指标的样本量、均值差和置信区间，不能只看单日涨跌。大促期间的波动要单独分析，因为用户结构、问题分布、系统负载都会变，直接把大促期和普通期混着看很容易误判。更稳的做法是分层看

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点，内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线，提供高频题解析、标准答题思路与工程落地方法，帮助你高效查漏补缺.

全部评论

推荐最新楼层

04-14 08:50

广西大学算法工程师

作业帮 AI Agent开发一面

1. 自我介绍2. Qwen3.5 这类新一代模型，如果不只停留在“Transformer 变体”更有含金量的讲法不会只说它是 Decoder-only，而是会落到训练稳定性、推理效率和长上下文适配这三条线上。比如归一化方式、注意力结构、RoPE 扩展策略、GQA 对 KV cache 的影响、SwiGLU 对表达能力的提升，以及 tokenizer 和多语种兼容设计。面试官真正想听的是这些结构选择为什么出现，它们解决了什么具体问题，而不是模块名背诵。如果要再深一点，可以顺手带出工程后果。比如 GQA 不是为了论文好看，而是为了在长生成场景下降 KV cache 占用；长上下文扩展也不是简单把...

AI-Agent面试实战...

点赞评论收藏

分享

05-06 22:08

已编辑

门头沟学院算法工程师

双非本末九硕菜鸡，一段运营商实习，一个大模型项目，论文1b+1一区，头铁冲大模型应用感谢老铁成为老铁HR面:快手蔚来vivo联想吉利卓望阳光保险三面：拼多多 （挂）二面：深信服多点联通研究院济南天翼数字生活一面：蚂蚁 （挂）海尔 （挂）宁德时代 （挂）太平洋人寿（挂）联通研究院北京电信北京电信临港

点赞评论收藏

分享

04-07 19:02

门头沟学院 Web前端

字节前端二面

面了70分钟，完完全全的道心破碎，拼尽全力仍然没有战胜字节二面1、什么是视觉问答2、介绍一下项目3、组件封装这个过程中你做了哪些沉淀4、UI还原是怎么做的，纯靠观察吗5、实习的过程中有没有主动发现问题并解决6、你做的功能拓展有没有带来开发负担7、样式的一键切换怎么做的8、开放思维题：有一个粗细不均匀的绳子，燃烧需要一个小时，现在有两个绳子，如果衡量45分钟9、从url到页面渲染发生了什么10、tcp为什么需要三次握手11、为什么要使用rag+微调的手段coding输入一个url，获取所有的参数，自己设计测试样例，自己考虑边界，写一个健壮的代码相关提问：参数是undefined，会输出什么？如果...

查看18道真题和解析

点赞评论收藏

分享

04-15 18:32

已编辑

重庆大学 Web前端

拼多多暑期实习进度（以hr面）

3.13笔试3月24日约面  === 3月29日一面3.31通知约面 === 4.3二面 （晚上面评）4、5、6清明假期三天4.7通知约面 === 4.10三面（晚上面评） 11、12周末4.13通知约面 === 4.15 hr面电话面 （12min）hr面属于快问快答了。求问暑期实习要等多久才会有结果呀？？？！！！会不会要等很久？？是不是发完意向后也有可能被挂？

点赞评论收藏

分享

05-02 21:34

蚌埠坦克学院嵌入式软件开发

如果春招能重来，我会多投几个简历

如果春招能重来，我会更主动一些，多投几份简历，而不是把机会压在少数几家公司上。很多时候，并不是能力不够，而是曝光太少、尝试不够。多投递不仅能增加面试机会，也能在不断反馈中调整方向、提升表现。回头看，求职本身就是一个不断试错的过程，机会往往藏在“多尝试一步”里。

如果春招能重来，我会__...

点赞评论收藏

分享

评论

2

14

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 这个offer值得去吗？ #

37328次浏览 247人参与

# 实习生工资多少才算正常？ #

73862次浏览 512人参与

# 在爱玛，骑向未来 #

42687次浏览 429人参与

# 如果春招能重来，我会___ #

31876次浏览 315人参与

# 实习生的蛐蛐区 #

955110次浏览 4818人参与

# 除了线上，还能去哪些地方投简历 #

17132次浏览 147人参与

# 蚂蚁集团笔试 #

31685次浏览 151人参与

# 非技术岗投递进展 #

178890次浏览 1325人参与

# 美团笔试 #

997746次浏览 5856人参与

# 产品每日一题 #

100139次浏览 720人参与

# 快手工作体验 #

337653次浏览 2962人参与

# 苦尽甘来时，再讲来时路 #

81241次浏览 981人参与

# 24届软件开发秋招薪资爆料 #

449605次浏览 1304人参与

# 公司情报交流地 #

163648次浏览 1352人参与

# 你被哪些公司挂了？ #

196838次浏览 1072人参与

# 那些我实习了才知道的事 #

294621次浏览 1813人参与

# 牛友的春节生活 #

123120次浏览 833人参与

# 腾讯工作体验 #

635886次浏览 3858人参与

# 你的秋招简历被谁挂了？ #

942344次浏览 6051人参与

# 研究所VS国企，该如何选 #

272859次浏览 2031人参与

# 金融财会交流会 #

151415次浏览 500人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务