首页 > 试题广场 >

在一个标准的Transformer Block中,一个Mul

[单选题]
在一个标准的Transformer Block中,一个Multi-Head Attention子层之后通常会跟一个Position-wise FFN子层。关于这两个子层处理信息方式的描述,以下哪项最为准确?
  • Multi-Head Attention和FFN都独立地处理每个位置的向量,不进行位置间的信息交换。
  • FFN负责在不同位置间混合信息,而Multi-Head Attention则对每个位置的向量进行独立的非线性变换。
  • Multi-Head Attention在不同位置间混合信息,而FFN则对每个位置的向量进行独立的非线性变换。
  • Multi-Head Attention和FFN都负责在整个序列的不同位置间进行信息交换。

这道题你会答吗?花几分钟告诉大家答案吧!