首页 > 试题广场 >

在使用TGI(Text Generation Inferen

[单选题]
在使用TGI(Text Generation Inference)部署模型时,以下关于Flash Attention 2的描述哪个最准确?
  • Flash Attention 2通过使用更少的注意力头来加速计算
  • Flash Attention 2通过优化GPU SRAM和HBM之间的数据传输模式,减少内存访问次数来加速注意力计算
  • Flash Attention 2通过近似计算注意力权重来加速,会牺牲一定精度
  • Flash Attention 2仅适用于推理阶段,不能用于训练

这道题你会答吗?花几分钟告诉大家答案吧!