攒人品中,欢迎评论区交流~1.在 LLM 的推理阶段,有哪些常见的解码策略?请解释 Greedy Search,Beam Search,Top-KSampling 和Nucleus Sampling(Top-p)的原理和优缺点。2.什么是位置编码?列举两种实现方式。3.请你详细介绍 ROPE,对比绝对位置编码它的优劣势分别是什么?4.MHA ,MOA,GOA 的区别。5.请比较一下几种常见的 LLM 架构,例如 Encoder-0 nly,Decoder-Only,和 Encoder-Decoder ,并说明它们各自最擅长的任务类型。6.什么是 Scaling Laws ?它揭示了模型性能、计算量和数据量之间的什么关系?这对 LLM 的研发有什么指导意义?7.请详细解释一下 Transformer 模型中的自注意力机制是如何工作的?8.什么是词元化?请比较一下 BPE()和 WordPiece 这两种主流的子词切分算法。9.你觉得 NLP()和 LLM 最大的区别是什么?10.开源框架了解过哪些?11.激活函数有了解吗,你知道哪些 LLM 常用的激活函数?为什么选用它?12.混合专家模型(MOE)是如何在不显著增加推理成本的情况下,有效扩大模型参数规模的?请简述其工作原理。13.在训练一个百或千亿参数级别的 LLM 时,你会面临哪些主要的工程和算法挑战?14.最近读过哪些 LLM 比较前沿的论文。