1. 自我介绍2. 训练一个 decoder-only 大模型时,为什么 embedding 层和 lm head 常常共享权重权重共享本质上是一种参数高效和统计一致性的设计。输入端 embedding 学到的是“token 到向量空间”的映射,输出端 lm head 学到的是“隐藏状态到词表概率”的映射,如果这两个空间本身就在描述同一个词表语义,那么共享权重可以减少冗余参数,并让输入语义空间与输出判别空间保持一致。从优化角度看,共享权重还能起到轻微正则化作用,尤其在词表非常大时更明显。代价是模型表达自由度下降了一点,但对大多数语言模型来说这个损失远小于收益。很多实现里会保留一个独立 bias...