大模型算法八股整理(模型架构)

1.介绍Transformer架构
2.多模态大模型架构
3.多模态+GRPO有没有结合的想法和思路
4.MoE架构
5.Token向量化具体怎么计算
6.对于VLM模型的架构是否熟悉
7.视觉编码器是否了解
8.多模态模型如何将文本和图像映射到同一向量空间
9.对VLA、具身智能的了解
10.对clip的理解
11.如何衡量图像embedding和文本embedding之间的相似度
12.Transformer的encoder和decoder区别
13.介绍self attention和cross attention
14.大模型的编码方式有哪些
15.介绍encoding和decoding
16.介绍旋转位置编码
17.大模型的词表是怎么生成和使用的
18.针对不同模型,如何调整提示词以适应其特点
19.Prompt一般是怎么设计的,怎么迭代优化的
20.人工标注vs模型标注,如果使用模型来打标,可能会遇到什么样的问题
21.意图识别中,模糊意图、多意图、意图分类怎么做
22.讲讲glm模型的技术特点,架构等
全部评论

相关推荐

发一下问题给大家参考,攒攒人品!1*Agent与Workflow的区别是什么?在实际业务中,你会根据什么标准选择对应的方案2*设计一个企业级Agent架构,如何实现 BFF、Tool Server 与 Worker 的多组件拆分3*在企业级Agent中,怎么实现安全与隔离?权限管理、审计与日志追踪具体的落地方案是什么?4*说一下什么是MCP?它在Agent生态中解决了什么痛点?5*MCP 有哪些具体的分类?Transport 层是怎么工作的?如何开发一个 MCP Server?6*谈谈你对 Claude Code、Manus 这类 Agent 产品的理解,它们的架构逻辑与传统 Chat Agent 有什么差别?它工程部分的能力是怎么实现的?7*如何实现 Claude 的 Agent Research 方法论?Deepsearch 场景下需要配备哪些工具?基础设施与安全挑战在哪里?8*在多轮对话中,分别实现 Short-term memory、Long-term memory 与 Task memory怎么做?9*上下文机制的完整实现流程是怎样的?说一下它的写入策略、读取策略以及 Rerank 的做法是怎么样的。10*当上下文超过 Token 限制时,组合使用 Rolling Summary、State Extraction 与 RAG 这三段式策略?11*说一下Prefix Caching 和 KV Cache 的原理。为什么缓存的是 K 和 V 而不是 Q?不再计算前缀具体节省了哪部分算力?12*引入 Prefix Caching 后,Attention 的计算复杂度是怎么下降的?13*Few-shot在Agent评测中是为了提升能力还是降低方差?在评测Pipeline的哪个阶段注入?如何防止过拟合?14*对比一下Transformer中Self-attention与FFN的作用差异。15*为什么 Prefix Caching 只能优化 Attention 部分,而无法优化 FFN 部分?16*从 Softmax 的数学角度解释,为什么在计算过程中加上负无穷就能让注意力权重变为 0?17*什么是掩码?你分别说一下Causal Mask与 Padding Mask 的作用是什么。
查看17道真题和解析
点赞 评论 收藏
分享
评论
点赞
5
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务