岗位名称:大语言模型算法面试时长:1h–1.5h自评分:8/10是否下一轮:是模型架构与基础原理目前主流大语言模型在架构设计上有哪些异同点?(追问)Decoder-only 和 Encoder-Decoder 在实际应用场景上有什么区别?介绍一下大语言模型中的注意力机制,多头相比单头注意力有何优势?(追问)如果减少头数会发生什么?是否一定性能下降?什么是大语言模型的涌现能力?目前对该现象的研究有哪些发现?(追问)涌现能力是否和模型规模线性相关?什么是 Embedding?词嵌入和句嵌入有何不同?(追问)Embedding 层是否会参与微调?为什么?大语言模型中的 Tokenization 是如...