1. 自我介绍2. 项目拷打3. 你实习做了什么 有什么提升 详细说说4.Transformer 为什么适合做大模型底座?Transformer 适合做大模型底座,核心原因是 并行能力强、长距离依赖建模能力强、扩展性好。RNN 按时间步串行处理,训练效率低,而且长距离依赖容易衰减;Transformer 使用 Self-Attention 直接建模任意位置之间的关系,训练时可以并行处理整段序列,所以更适合大规模预训练。现在大部分大模型都以 Transformer 为核心结构。5. Self-Attention 的公式是什么?输入 (X) 先映射成 Query、Key、Value:注意力计算公式...