整体面试还是不错的,但是没后续了...1、项目介绍2、Transformer结构理解请详细说明Transformer的整体架构及其核心组成部分。3、Attention机制问题为什么Attention公式中要除以√dk?这个操作有什么作用?Transformer训练过程中为什么容易出现梯度消失或爆炸问题?4、SFT实践问题在监督微调(SFT)过程中遇到过哪些典型问题?请分享您的解决方案和实践经验。5、领域数据配比问题在构建领域大模型时,如何确定不同领域数据的配比比例?有哪些考量因素?6、Decoder-only架构问题为什么当前主流LLM都采用Decoder-only架构?这种结构相比Encoder-Decoder有哪些优势?7、优化器相关问题ADAM优化器相比SGD有哪些改进?请简要说明梯度下降的原理ADAM是如何在SGD基础上进行优化的?8、代码题给定一个元素互不相同的整数数组nums,编写函数返回其所有可能的子集(幂集)。示例:输入:nums = [1,2,3]输出:[[],[1],[2],[3],[1,2],[1,3],[2,3],[1,2,3]]