小鹏汽车 AI Agent 开发 一面

1、自我介绍

2、项目拷打

3、介绍 DeepSeek 与 Manus,以及他们之间区别

4、介绍 LLM Decoder-Only 架构

Decoder-Only 架构本质上就是只使用 Transformer 里的 Decoder 结构,通过自回归的方式一个 token 一个 token 地往后生成内容。它的训练目标通常是 next token prediction,也就是根据前面的上下文预测下一个 token。

它的关键点在于 Masked Self-Attention。所谓 masked,就是当前位置只能看到前面的 token,看不到后面的 token,这样模型才能按从左到右的方式学习生成。整体结构上,输入先经过 embedding 和位置编码,然后进入多层 Decoder Block。每一层里主要有自注意力、前馈网络、残差连接和 LayerNorm,最后经过线性层和 softmax 得到下一个 token 的概率分布。

像 GPT、LLaMA 这些大模型基本都属于这种架构,它的优势是结构统一、适合生成任务,而且扩展性比较强。

5、反向传播的原理

反向传播本质上就是用链式法则去计算损失函数对各层参数的梯度。训练时先做前向传播,把输入送进网络得到预测结果,再根据预测结果和真实标签计算损失。之后从损失出发一层一层往前算梯度,得到每一层参数对最终损失的影响。

因为神经网络本质上是很多层函数复合起来的,所以前面层参数对最终结果的影响,需要通过后面每一层的导数传回来。反向传播解决的就是怎么高效地完成这件事。算出梯度之后,优化器就可以根据梯度去更新参数,让模型逐步收敛。

6、梯度下降介绍一下

梯度下降是一种最优化方法,目标是让损失函数不断变小。它的基本思想是,梯度表示函数上升最快的方向,那如果想让损失下降,就沿着梯度的反方向去更新参数。更新公式通常就是参数减去学习率乘以梯度。

训练时每算完一次梯度,就根据这个方向调整参数。学习率控制的是每次更新步子迈多大,太大可能震荡,太小又会收敛很慢。实际中常见的有 Batch Gradient Descent、SGD 和 Mini-Batch Gradient Descent,现在更常用的是基于梯度下降改进出来的优化器,比如 Adam 和 AdamW。

7、梯度消失怎么解决

梯度消失主要出现在深层网络中。因为反向传播时梯度要一层层往前传,如果每层导数都比较小,连乘之后前面的梯度就会越来越接近 0,最后前面那些层几乎学不到东西。

解决思路一般有几个方向。一个是换更合适的激活函数,比如少用 sigmoid、tanh,多用 ReLU、Leaky ReLU、GELU 这类函数。另一个是做合理的参数初始化,让网络在一开始训练时数值更稳定。再一个是使用残差连接,像 ResNet 和 Transformer 都大量用了残差结构,本质上就是为了让信息和梯度更容易传递。另外像 BatchNorm、LayerNorm 这些归一化方法,也能帮助训练变得更稳定。

如果放到大模型里来看,Transformer 这套结构因为有残差、LayerNorm 和更稳定的训练方式,所以已经把传统深层网络中的梯度消失问题缓解了很多。

8、介绍一下 T

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

查看27道真题和解析
点赞 评论 收藏
分享
一面 第一段实习经历1. 讲讲你这个“线程池 + CompletableFuture”同步数据方案是如何设计的?以及你线程池的核心参数是如何配置的?2. 你的拉取任务之前有依赖关系嘛?你是如何去编排这个依赖关系的?(这里想考察的是CompletableFuture的多任务编排)3. 你这个“首次全量同步 + 后续增量同步”策略的游标增量同步时如何保证不丢数据的?如果你的这个增量同步期间上游的数据被删了会怎么样?4. 你这个同步频率是如何确定的?5. 你这个增量同步的延迟指标如何去监控?第二段实习经历1. 你这个抽象统一的Redis分布式锁能力具体是如何设计的?2. 你覆盖了下单、预支付、支付回调、取消订单这些场景,这些场景对锁的要求有差异嘛?超时时间是如何设置的?3. 锁的续期你是如何做的?4. 如果Redis主从切换导致锁丢失,你是怎么处理的?5. 数据库和缓存的一致性如何保证?6. 延迟双删的延迟时间的间隔时间是如何定的?7. 针对于普通商品和分销商商品的放重策略是怎么样的?8. 你这个订单状态的流转有没有用状态机的方式去做?9. 你的分销商品和订单状态是如何关联的?10. 你的新人券高并发这个问题是如何定位的?项目1. 你提到使用“outlook + MQ”将评估流程异步化,你这个“outlook”表是如何设计的?消费幂等性如何保证?2. 基于Webscoket + qwen的语音链路的时序关系是怎么样的?3. webscoket断连之后你如何恢复会话?4. Rag知识库分析,文档分析兜底策略是如何设计的?不同类型的文件它们的解析策略有什么不同?5. 向量检索的策略是如何设计的?检索的准确性是如何评估和优化的?6. 谈谈你对Rag的一个理解?Rag和纯大模型对话的区别是什么?7. 你在日常开发中都是用过哪些ai工具?有没有遇到什么问题?其它1. 自我介绍2. 两段实习经历的业务相差很大,你是如何快速上手的?3. 为什么从上家实习公司离职
查看25道真题和解析
点赞 评论 收藏
分享
评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务