飞猪 大模型算法 二面

1. 介绍一下你做过的一个大模型项目

2. 如果让你设计一个适合购票的 Agent 系统,你会怎么做

3. RAG 在酒旅场景里最容易出什么问题,怎么解决

酒旅场景里的 RAG 最大问题不是召回不到,而是召回到了“看起来很像但不适用”的内容。比如同一家酒店不同套餐、同一航司不同舱位、同一个城市不同出发日期、同一政策不同会员等级,文本很像,但结论完全不同。模型一旦把这些证据混在一起,就很容易生成似是而非的答案。

解决方法通常不是单纯提升 embedding,而是先把检索约束做对。比如 query 里要强绑定出发时间、订单状态、航司、舱位、供应商、会员等级这些 metadata,再在这个前提下做 dense + sparse 混合召回。生成前还要做证据一致性过滤,发现证据片段之间结论冲突,宁可返回“需要人工确认”,也不要强行总结。很多 RAG 幻觉,本质上不是生成错了,而是证据池本来就脏。

4. 如果检索结果被误读了,你会怎么快速止损

线上最快的止损手段不是重新训模型,而是加一层 answer grounding 检查。也就是答案里的关键实体、数值、日期、规则条件,必须能在引用证据里找到锚点。如果答案说“改签手续费 200 元”,但证据里没有 200 这个数,或者这个数其实属于另一种舱位,那就直接打回重生成或者触发重检索。

如果高频误读集中在某一类问题,我会优先排查 chunk 切分和 metadata 过滤。因为很多误读就是把“适用条件”切丢了,只剩结论文本。比如“24 小时前免费取消”这句话,如果前面的“仅限某套餐”被切掉,模型就会答错。止损最快的方法往往是补规则字段、补切分策略,而不是急着换更大的模型。

5. 打分模型在 Agent 或 RAG 里一般怎么设计

打分模型本质是排序模型。放在 RAG 里,它解决的是“哪些证据更该进入上下文”;放在 Agent 里,它解决的是“当前这个工具调用路径是不是更合理”。如果是文档重排,我会把语义相关性、实体一致性、时间匹配度、来源可信度这些信号融合起来。尤其在飞猪场景里,时间和来源权重很高,因为一条过期规则比一条模糊规则更危险。

如果是 Agent 路径打分,我不会只看最后结果对不对,而是看每一步是不是必要。比如用户问退票,模型先去调天气接口,那这条路径即使最后答对了,也说明规划是脏的。训练时可以先用日志和人工标注构造 pairwise 数据,让“正确路径”比分叉路径得分更高。

import torch
import torch.nn.functional as F

def pairwise_rank_loss(pos_score, neg_score, margin=0.2):
    return F.relu(margin - pos_score + neg_score).mean()

6. LoRA 和 QLoRA 的区别是什么,实际选型怎么考虑

LoRA 是冻结大模型原始参数,只训练低秩增量矩阵,核心目的是低成本微调。QLoRA 则是在 LoRA 的基础上把底座模型量化存储,一般是 4bit,这样显存占用更低,可以在更有限的资源上训更大的模型。两者的本质区别不在训练目标,而在底座参数的存储和计算方式。

选型的时候如果资源紧张、目标是快速做领域适配,QLoRA 很划算。但如果任务对数值精度特别敏感,比如要做比较稳定的 reward model 或 ranking model,或者你发现量化后 loss 波动明显,那 LoRA 可能更稳。工程上不是 QLoRA 一定更高级,而是看你在“资源”和“上限”之间怎么取舍。

7. DPO 和 PPO 的区别是什么,什么场景下你会优先用 DPO

PPO 是典型的强化学习路线,通常要有 policy、reference、reward model,有时还要 critic。它适合奖励定义比较灵活的场景,但训练链条长,调参和稳定性要求高。DPO 更直接,它不显式训练 reward model 再做 RL,而是直接用 chosen / rejected 偏好对优化模型,让模型提高 chosen 相对 rejected 的概率。

如果我手

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论
感觉总结的很好啊
点赞 回复 分享
发布于 04-01 22:44 北京

相关推荐

04-04 17:56
门头沟学院 Java
聊天型面试,面试官总结回答很专业1.技术栈;两个ai项目和导师的实验室项目,简历上实习内容2.选型,评估,指标3.正向说的十分清除,反向评估怎么做的4.黄金数据集,人工打标,评估5.发现error case,怎么优化答得,生成侧还是检索侧6.具体case,在权重调整的时候,怎么确保不会影响其他的召回答得,专业场景关键词;个人知识库更倾向语义7.rag有哪些问题吗答得query改写,ES辅助8.了解过实现方式上,除了rag还有哪些方式吗答得claude记忆压缩,md文档,记忆链接;知识图谱用于多跳推理9.java大概用了几年了,看过其他框架langchain外吗答得谷歌 ADK的,langgrph10.mcp用过吗,有写过吗,没封装过吗11.skill用过吗答得文献搜素skil12.并发包里面的组件concurrt hashmap,AQS,线程池运转过程(吟唱)13拒绝策略用的什么抛异常,丢任务14.AQS框架,retranlock非公平,公平锁,怎么实现的;可重入怎么实现的15.synchoninized 可重入锁,java上怎么实现的16.一个前端请求到后端mvc过程 ,servlaet怎么到controller上的?17.换个问法:spring启动,controller怎么管理的?spring怎么管理,维护和映射;注解18.最近在做什么吗重构多智能体架构;openclaw19中转站用的模型;海外模型用哪些20ai coding,日常编码,bug查找github copilot用的多些反问业务
查看24道真题和解析
点赞 评论 收藏
分享
评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务