首页 > 试题广场 >

在一个标准的Transformer Block中,一个Mul

[单选题]

在一个标准的Transformer Block中,一个Multi-Head Attention子层之后通常会跟一个Position-wise FFN子层。关于这两个子层处理信息方式的描述,以下哪项最为准确?

Multi-Head Attention和FFN都独立地处理每个位置的向量,不进行位置间的信息交换。

FFN负责在不同位置间混合信息,而Multi-Head Attention则对每个位置的向量进行独立的非线性变换。

Multi-Head Attention在不同位置间混合信息,而FFN则对每个位置的向量进行独立的非线性变换。

Multi-Head Attention和FFN都负责在整个序列的不同位置间进行信息交换。

查看正确选项

这道题你会答吗？花几分钟告诉大家答案吧！

提交观点

问题信息

来自：2026年-华为-2月...

难度：

0条回答 2收藏 4浏览

扫一扫，把题目装进口袋