简化Attention输出的元素总和 题意 给定三个正整数 (均小于 100),按照简化 Attention 的流程构造矩阵并求输出矩阵 的元素总和(四舍五入取整)。 构造规则: 输入特征矩阵 :,全 1 权重矩阵 : 的上三角矩阵(主对角线及以上为 1,其余为 0) ,, 对 逐行做 softmax 思路 这题看上去是矩阵乘法模拟题,但如果直接暴力模拟, 的矩阵乘法虽然跑得过,却不够优雅。不妨先手推一下每个矩阵长什么样。 第一步:Q、K、V 长什么样? 全是 1,所以 的第 行第 列就是 第 列的元素之和。 是 的上三角矩阵,第 列(0-indexed)在行 处...