Flash Attention 2通过使用更少的注意力头来加速计算
Flash Attention 2通过优化GPU SRAM和HBM之间的数据传输模式,减少内存访问次数来加速注意力计算
Flash Attention 2通过近似计算注意力权重来加速,会牺牲一定精度
Flash Attention 2仅适用于推理阶段,不能用于训练
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题