飞猪大模型算法二面

1. 介绍一下你做过的一个大模型项目

2. 如果让你设计一个适合购票的 Agent 系统，你会怎么做

3. RAG 在酒旅场景里最容易出什么问题，怎么解决

酒旅场景里的 RAG 最大问题不是召回不到，而是召回到了“看起来很像但不适用”的内容。比如同一家酒店不同套餐、同一航司不同舱位、同一个城市不同出发日期、同一政策不同会员等级，文本很像，但结论完全不同。模型一旦把这些证据混在一起，就很容易生成似是而非的答案。

解决方法通常不是单纯提升 embedding，而是先把检索约束做对。比如 query 里要强绑定出发时间、订单状态、航司、舱位、供应商、会员等级这些 metadata，再在这个前提下做 dense + sparse 混合召回。生成前还要做证据一致性过滤，发现证据片段之间结论冲突，宁可返回“需要人工确认”，也不要强行总结。很多 RAG 幻觉，本质上不是生成错了，而是证据池本来就脏。

4. 如果检索结果被误读了，你会怎么快速止损

线上最快的止损手段不是重新训模型，而是加一层 answer grounding 检查。也就是答案里的关键实体、数值、日期、规则条件，必须能在引用证据里找到锚点。如果答案说“改签手续费 200 元”，但证据里没有 200 这个数，或者这个数其实属于另一种舱位，那就直接打回重生成或者触发重检索。

如果高频误读集中在某一类问题，我会优先排查 chunk 切分和 metadata 过滤。因为很多误读就是把“适用条件”切丢了，只剩结论文本。比如“24 小时前免费取消”这句话，如果前面的“仅限某套餐”被切掉，模型就会答错。止损最快的方法往往是补规则字段、补切分策略，而不是急着换更大的模型。

5. 打分模型在 Agent 或 RAG 里一般怎么设计

打分模型本质是排序模型。放在 RAG 里，它解决的是“哪些证据更该进入上下文”；放在 Agent 里，它解决的是“当前这个工具调用路径是不是更合理”。如果是文档重排，我会把语义相关性、实体一致性、时间匹配度、来源可信度这些信号融合起来。尤其在飞猪场景里，时间和来源权重很高，因为一条过期规则比一条模糊规则更危险。

如果是 Agent 路径打分，我不会只看最后结果对不对，而是看每一步是不是必要。比如用户问退票，模型先去调天气接口，那这条路径即使最后答对了，也说明规划是脏的。训练时可以先用日志和人工标注构造 pairwise 数据，让“正确路径”比分叉路径得分更高。

import torch
import torch.nn.functional as F

def pairwise_rank_loss(pos_score, neg_score, margin=0.2):
    return F.relu(margin - pos_score + neg_score).mean()

6. LoRA 和 QLoRA 的区别是什么，实际选型怎么考虑

LoRA 是冻结大模型原始参数，只训练低秩增量矩阵，核心目的是低成本微调。QLoRA 则是在 LoRA 的基础上把底座模型量化存储，一般是 4bit，这样显存占用更低，可以在更有限的资源上训更大的模型。两者的本质区别不在训练目标，而在底座参数的存储和计算方式。

选型的时候如果资源紧张、目标是快速做领域适配，QLoRA 很划算。但如果任务对数值精度特别敏感，比如要做比较稳定的 reward model 或 ranking model，或者你发现量化后 loss 波动明显，那 LoRA 可能更稳。工程上不是 QLoRA 一定更高级，而是看你在“资源”和“上限”之间怎么取舍。

7. DPO 和 PPO 的区别是什么，什么场景下你会优先用 DPO

PPO 是典型的强化学习路线，通常要有 policy、reference、reward model，有时还要 critic。它适合奖励定义比较灵活的场景，但训练链条长，调参和稳定性要求高。DPO 更直接，它不显式训练 reward model 再做 RL，而是直接用 chosen / rejected 偏好对优化模型，让模型提高 chosen 相对 rejected 的概率。

如果我手

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点，内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线，提供高频题解析、标准答题思路与工程落地方法，帮助你高效查漏补缺.