技术蓄力中

02-07 11:30 北京大学算法工程师

关注

算法面经：LLM八股总结

攒人品中，欢迎评论区交流～
1.在 LLM 的推理阶段，有哪些常见的解码策略?请解释 Greedy Search，Beam Search，Top-KSampling 和Nucleus Sampling(Top-p)的原理和优缺点。
2.什么是位置编码?列举两种实现方式。
3.请你详细介绍 ROPE，对比绝对位置编码它的优劣势分别是什么?
4.MHA ,MOA,GOA 的区别。
5.请比较一下几种常见的 LLM 架构，例如 Encoder-0 nly,Decoder-Only,和 Encoder-Decoder ，并说明它们各自最擅长的任务类型。
6.什么是 Scaling Laws ?它揭示了模型性能、计算量和数据量之间的什么关系?这对 LLM 的研发有什么指导意义?
7.请详细解释一下 Transformer 模型中的自注意力机制是如何工作的?
8.什么是词元化?请比较一下 BPE()和 WordPiece 这两种主流的子词切分算法。
9.你觉得 NLP()和 LLM 最大的区别是什么?
10.开源框架了解过哪些?
11.激活函数有了解吗，你知道哪些 LLM 常用的激活函数?为什么选用它?
12.混合专家模型(MOE)是如何在不显著增加推理成本的情况下，有效扩大模型参数规模的?请简述其工作原
理。
13.在训练一个百或千亿参数级别的 LLM 时，你会面临哪些主要的工程和算法挑战?
14.最近读过哪些 LLM 比较前沿的论文。

全部评论

推荐最新楼层

03-04 14:43

门头沟学院 C++

面试大手子必刷题

提到算法工程师面试，第一反应就是“头疼”——不仅要懂模型架构、推导数学公式，还要和开发岗一样手撕代码。面对题海战术，很多人看到 LeetCode 上两三千道题就发怵，其实大可不必。面试官让你手撕代码，核心是考察你的逻辑思维、代码规范、边界条件处理以及沟通能力，而不是看你是不是个无情的背题机器。首先，必须夯实基础。对初学者来说，树、链表、双指针， 永远的神，虽然有些老，但里面的考察非常经典，是国内大厂面试的基石。重点就是 链表反转（各种变体）、二叉树遍历、栈与队列的相互实现。中阶就是Hot 100，哈希表、双指针、滑动窗口、动态规划（背包问题、打家劫舍系列）、回溯算法（排列组合问题），这其中难免...

面试___岗的必刷题单

点赞评论收藏

分享

03-05 20:16

已编辑

南京邮电大学算法工程师

某ai小厂算法面经（已oc）

自我感觉答的不好，语言组织能力差，但面试官说还可以项目拷打+八股1.BM25是怎么设计的2.讲讲Lora3.整个训练花了多长时间4.数据集怎么构建的？5.了解强化学习吗？6.rag问答的整个流程是怎么样的7.讲讲训练的损失函数有哪些反问1.我表现如何2.公司主营业务和落地产品3.公司人事架构4.是否有成熟的技术文档刚面完就oc，体验感很好，不过200人的ai公司算小厂吗？

点赞评论收藏

分享

03-18 14:40

门头沟学院推荐算法

小红书大模型算法实习面经

继续来分享下之前的面经~欢迎友好讨论，信息共享1. LLaMA 相比原始 Transformer 架构有哪些改进？2. 微调（Fine-tuning）和对齐（Alignment）的区别？3. 模型微调到什么程度才需要进行对齐？4. 四种对齐算法的区别：PPO、DPO、GRPO、DSPO？5. 位置编码的作用？为什么相对位置编码通常比绝对位置编码更好？6. GAE（Generalized Advantage Estimation）以及重要性采样（Importance Sampling）？7. 损失采样（Loss Sampling）相关问题？8. 目前了解哪些大模型架构？例如 LLaMA 等。9. 是否了解 PagedAttention？10. LoRA 中两个低秩矩阵是如何初始化的？11. PPO 中的四种模型分别是什么？各自的作用是什么？

查看11道真题和解析

点赞评论收藏

分享

03-24 12:40

门头沟学院人工智能

科大讯飞大模型算法一面业务拷打

发点面经攒攒人品～1.实习拷打2. 论文拷打3.有什么涉及的具体的应用吗4.我看里面上写上面写了一些知识图谱的一个构建说一下这个这个任务的一个输入和输出吧，大概你用到了什么数据，然后什么模型去产出什么样的一个东西5.你这个图谱里边都有哪些类型的实体？关系是怎么定义的6.你用了BERT去做实体识别哈，那为啥用BERT呢？能不能直接用个BiLSTM搞定5.我看你提到了LayerNorm，这块为啥要用个条件LayerNorm有什么作用6.说一下transformer的底层结构吧7.Transformer为什么用了LayerNorm呢8.你说你做了一个Multi-Head Self-Attention，那注意力权重那部分你还记得公式是咋算的吗？9.说一下LoRA原理10.刚才提到用LoRA做参数高效微调的必要性，那如果不是用LoRA，而是做全参数微调，那会消耗多少显存，比如说我以一个7B规模的大语言模型为例11.说说现在千问里有哪些主流的大模型结构12.项目拷打13.那你们这个DAG 图是怎么构建的？根因节点怎么推出来的

点赞评论收藏

分享

03-24 11:45

门头沟学院机器学习

快手大模型llm面经分享

发一下问题给大家参考，攒攒人品！1 项目拷打2. 在 Agent 多轮对话任务中，Attention 的局限性具体体现在哪些方面？3. 简要介绍 SFT 的核心流程，以及如何制定数据集的构建策略？4. SFT 之后常见的 Post-Training还有哪些？它们各自的设计目的是什么5. 什么是RAG它提升生成质量的核心原理是什么6.RAG与传统的检索 + 模型生成流程有何不同7.如何构建评估体系来验证一个RAG系统是否真正Work？8.PPO和DPO在对齐阶段的主要区别是什么？9. 在进行DPO训练时，通常有哪些关键的注意事项？是否了解过GRPO10.在Modular Agent中，多步规划是如何实现的？11.针对多个工具的调用链路，你的调度策略是如何设计的12. Agent 评估体系包含哪些核心维度？如何量化衡量Planning能力与Hallucination Rate )？13.在微调Qwen模型时，你是如何确定训练阶段和 Loss Function的？14. Prompt自动推荐模块应用了哪些优化策略？是否尝试过Prompt压缩或Embedding表示的方式？15.假如Agent推理链路包含3个工具且请求频率极高，导致系统整体延迟较高，你会从哪些维度进行优化？17.在记忆系统中，意图识别 承担什么职责？18.Embedding的维度选择（如 1024 维）是基于什么逻辑？为什么不选择更高或更低的维度？19.Qwen-4B的Embedding是如何实现的？其模型框架是否属于 BERT 系列？20.Qwen-34B的Rerank是如何实现的？21.Attention机制中的Q, K, V矩阵具体是如何通过输入变换得到的？22.Attention公式中除以根号d_k的作用是什么？如果不除以它，是否有其他替代方案？23.请详细解释Multi-Head Attention ，并指出它目前存在的主要问题24. 如何解决多头注意力机制计算开销过大的问题25. 什么是 RoPE ？它核心解决了什么问题？26. 在 Memory  系统中，如果输入文本过长，常见的工程处理策略有哪些？

点赞评论收藏

分享

评论

点赞

5

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 大厂实习和小厂实习最大的区别是什么？ #

9191次浏览 62人参与

# 金融银行求职进展汇总 #

328829次浏览 1780人参与

# 招商银行数字金融训练营 #

42442次浏览 608人参与

# 如果人生可以debug你会改哪一行? #

1622次浏览 42人参与

# 你都用vibe coding做过什么？ #

1194次浏览 45人参与

# 你觉得大几开始实习最合适？ #

1976次浏览 22人参与

# 开放七大实习专项，百度暑期实习值得冲吗 #

21047次浏览 396人参与

# 做完笔试后你收到面试了吗？ #

2624次浏览 35人参与

# AI Coding实战技巧 #

935次浏览 29人参与

# 你见过哪些招聘隐形歧视？ #

1601次浏览 25人参与

# Vibe Coding 会干掉初级岗位吗？ #

2752次浏览 59人参与

# 牛友の3月总结 #

6098次浏览 56人参与

# 你现在一天AI几次？ #

938次浏览 36人参与

# 面试被问到不会的问题，你怎么应对？ #

1928次浏览 21人参与

# 哪些公司真双非友好？ #

71054次浏览 305人参与

# 实习学到最有价值的工作习惯 #

66724次浏览 540人参与

# 找AI工作可以去哪些公司？ #

22305次浏览 981人参与

# 金三银四，你的春招进行到哪个阶段了？ #

26085次浏览 305人参与

# 从事AI岗需要掌握哪些技术栈？ #

17997次浏览 1094人参与

# 4399求职进展汇总 #

58878次浏览 242人参与

# 银行笔面经互助 #

187640次浏览 1308人参与

# 如果可以选，你最想从事什么工作 #

764048次浏览 4895人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务