首页 > 试题广场 >

一位深度学习工程师正在分析一个标准Transformer模型

[不定项选择题]
一位深度学习工程师正在分析一个标准Transformer模型的性能瓶颈和训练动态。在深入研究其基础运算单元时,得出了以下几个结论,请判断哪些结论
  • 在计算softmax时,为了防止因输入值过大导致exp()函数结果溢出,一个标准的实现技巧是先从所有输入值中减去它们的最大值,这个操作在数学上是等价的,且能有效提升的领域包括
  • 在LayerNorm中,可学习的仿射变换参数gamma(增益)和beta(偏置)的主要作用是严格维持归一化后的数据分布为标准正态分布(均值为0,方差为1),从而加速模型收敛。
  • 采用子词(subword)分词的Tokenizer,其词汇表大小(V)直接决定了模型输入端嵌入层(Embedding Layer)的参数量。一个拥有64000个词元的词汇表和一个512维的d_model,其嵌入层的参数数量级约为3200万。
  • 当序列长度N远大于模型的隐藏维度d_model时(例如在处理长文档时),自注意力机制中与N^2相关的计算会成为主要的计算瓶颈;反之,当N较小时,前馈网络(FFN)的计算量通常会占据主导地位。

这道题你会答吗?花几分钟告诉大家答案吧!