飞猪 大模型算法 二面

1. 介绍一下你做过的一个大模型项目

2. 如果让你设计一个适合购票的 Agent 系统,你会怎么做

3. RAG 在酒旅场景里最容易出什么问题,怎么解决

酒旅场景里的 RAG 最大问题不是召回不到,而是召回到了“看起来很像但不适用”的内容。比如同一家酒店不同套餐、同一航司不同舱位、同一个城市不同出发日期、同一政策不同会员等级,文本很像,但结论完全不同。模型一旦把这些证据混在一起,就很容易生成似是而非的答案。

解决方法通常不是单纯提升 embedding,而是先把检索约束做对。比如 query 里要强绑定出发时间、订单状态、航司、舱位、供应商、会员等级这些 metadata,再在这个前提下做 dense + sparse 混合召回。生成前还要做证据一致性过滤,发现证据片段之间结论冲突,宁可返回“需要人工确认”,也不要强行总结。很多 RAG 幻觉,本质上不是生成错了,而是证据池本来就脏。

4. 如果检索结果被误读了,你会怎么快速止损

线上最快的止损手段不是重新训模型,而是加一层 answer grounding 检查。也就是答案里的关键实体、数值、日期、规则条件,必须能在引用证据里找到锚点。如果答案说“改签手续费 200 元”,但证据里没有 200 这个数,或者这个数其实属于另一种舱位,那就直接打回重生成或者触发重检索。

如果高频误读集中在某一类问题,我会优先排查 chunk 切分和 metadata 过滤。因为很多误读就是把“适用条件”切丢了,只剩结论文本。比如“24 小时前免费取消”这句话,如果前面的“仅限某套餐”被切掉,模型就会答错。止损最快的方法往往是补规则字段、补切分策略,而不是急着换更大的模型。

5. 打分模型在 Agent 或 RAG 里一般怎么设计

打分模型本质是排序模型。放在 RAG 里,它解决的是“哪些证据更该进入上下文”;放在 Agent 里,它解决的是“当前这个工具调用路径是不是更合理”。如果是文档重排,我会把语义相关性、实体一致性、时间匹配度、来源可信度这些信号融合起来。尤其在飞猪场景里,时间和来源权重很高,因为一条过期规则比一条模糊规则更危险。

如果是 Agent 路径打分,我不会只看最后结果对不对,而是看每一步是不是必要。比如用户问退票,模型先去调天气接口,那这条路径即使最后答对了,也说明规划是脏的。训练时可以先用日志和人工标注构造 pairwise 数据,让“正确路径”比分叉路径得分更高。

import torch
import torch.nn.functional as F

def pairwise_rank_loss(pos_score, neg_score, margin=0.2):
    return F.relu(margin - pos_score + neg_score).mean()

6. LoRA 和 QLoRA 的区别是什么,实际选型怎么考虑

LoRA 是冻结大模型原始参数,只训练低秩增量矩阵,核心目的是低成本微调。QLoRA 则是在 LoRA 的基础上把底座模型量化存储,一般是 4bit,这样显存占用更低,可以在更有限的资源上训更大的模型。两者的本质区别不在训练目标,而在底座参数的存储和计算方式。

选型的时候如果资源紧张、目标是快速做领域适配,QLoRA 很划算。但如果任务对数值精度特别敏感,比如要做比较稳定的 reward model 或 ranking model,或者你发现量化后 loss 波动明显,那 LoRA 可能更稳。工程上不是 QLoRA 一定更高级,而是看你在“资源”和“上限”之间怎么取舍。

7. DPO 和 PPO 的区别是什么,什么场景下你会优先用 DPO

PPO 是典型的强化学习路线,通常要有 policy、reference、reward model,有时还要 critic。它适合奖励定义比较灵活的场景,但训练链条长,调参和稳定性要求高。DPO 更直接,它不显式训练 reward model 再做 RL,而是直接用 chosen / rejected 偏好对优化模型,让模型提高 chosen 相对 rejected 的概率。

如果我手

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

点赞 评论 收藏
分享
昨天 00:39
门头沟学院 C++
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务