1. 自我介绍2. 说说你简历上这俩项目3. 多头注意力真正发挥作用的关键,不是“头变多了”而是什么多头注意力的核心不是把一个注意力拆成几份,而是把表示空间分成多个子空间,让不同 head 在不同投影下学习不同相关性模式。有的 head 偏局部词法关系,有的偏远距离依赖,有的偏结构性边界,有的偏位置模式。如果只是单头,模型只能在一个统一度量空间里做相关性匹配,表达会更受限。真正让多头有效的,不是“并行”两个字,而是不同头通过不同参数矩阵形成了多视角关系建模。头数继续增大并不一定更好,因为维度被切得过细后,每个头的表达能力又会下降,所以它本质上是容量分配问题,不是机械堆头数的问题。4. 为什么推...