AI Agent面经 10(持续更新)
Q1:大模型是怎么让生成的文本丰富而不单调的呢?
答案:
- 从训练角度来看:
- 基于Transformer的模型参数量巨大,有助于模型学习到多样化的语言模式与结构;
- 各种模型微调技术的出现,例如P-Tuning、Lora,让大模型微调成本更低,也可以让模型在垂直领域有更强的生成能力;
- 在训练过程中加入一些设计好的loss,也可以更好地抑制模型生成单调内容;
- 从推理角度来看:
- 基于Transformer的模型可以通过引入各种参数与策略,例如temperature,nucleus samlper来改变每次生成的内容。
Q2:什么情况用Bert模型,什么情况用LLaMA、ChatGLM类大模型,咋选?
答案:Bert 的模型由多层双向的Transformer编码器组成,由12层组成,768隐藏单元,12个head,总参数量110M,约1.15亿参数量。NLU(自然语言理解)任务效果很好,单卡GPU可以部署,速度快, V100GPU下1秒能处理2千条以上。
ChatGLM-6B, LLaMA-7B模型分别是60亿参数量和70亿参数量的大模型,基本可以处理所有NLP任务,效果好,但大模型部署成本高,需要大显存的GPU,并且预测速度慢,V100都需要1秒一条。
所以建议:
- NLU相关的任务,用BERT模型能处理的很好,如实体识别、信息抽取、文本分类,没必要上大模型
- NLG任务,纯中文任务,用ChatGLM-6B,需要处理中英文任务,用chinese-alpaca-plus-7b-hf
Q3:各个专业领域是否需要各自的大模型来服务?
答案:各个专业领域通常需要各自的大模型来服务,原因如下:
- 领域特定知识:不同领域拥有各自特定的知识和术语,需要针对该领域进行训练的大模型才能更好地理解和处理相关文本。例如,在医学领域,需要训练具有医学知识的大模型,以更准确地理解和生成医学文本。
- 语言风格和惯用语:各个领域通常有自己独特的语言风格和惯用语,这些特点对于模型的训练和生成都很重要。专门针对某个领域进行训练的大模型可以更好地掌握该领域的语言特点,生成更符合该领域要求的文本。
- 领域需求的差异:不同领域对于文本处理的需求也有所差异。例如,金融领域可能更关注数字和统计数据的处理,而法律领域可能更关注法律条款和案例的解析。因此,为了更好地满足不同领域的需求,需要专门针对各个领域进行训练的大模型。
- 数据稀缺性:某些领域的数据可能相对较少,无法充分训练通用的大模型。针对特定领域进行训练的大模型可以更好地利用该领域的数据,提高模型的性能和效果。
尽管需要各自的大模型来服务不同领域,但也可以共享一些通用的模型和技术。例如,通用的大模型可以用于处理通用的文本任务,而领域特定的模型可以在通用模型的基础上进行微调和定制,以适应特定领域的需求。这样可以在满足领域需求的同时,减少模型的重复训练和资源消耗。
大模型、Agent面试八股全集 文章被收录于专栏
大模型面试,早已不只是会用 LangChain、会调 OpenAI API 那么简单。真正决定面试深度的,是你是否理解 Transformer、Prompt 工程、RAG 检索链路、Agent 规划与执行、工作流设计,以及复杂场景下的稳定性与工程落地问题。本专栏聚焦大模型与 Agent 开发面试高频八股,系统拆解核心概念、常见追问、项目回答思路,帮助你系统掌握核心考点,提升面试表达与项目答辩能力。