首页 > 试题广场 >

在使用TGI(Text Generation Inferen

[单选题]

在使用TGI(Text Generation Inference)部署模型时，以下关于Flash Attention 2的描述哪个最准确？

Flash Attention 2通过使用更少的注意力头来加速计算

Flash Attention 2通过优化GPU SRAM和HBM之间的数据传输模式，减少内存访问次数来加速注意力计算

Flash Attention 2通过近似计算注意力权重来加速，会牺牲一定精度

Flash Attention 2仅适用于推理阶段，不能用于训练

查看正确选项

这道题你会答吗？花几分钟告诉大家答案吧！

提交观点

问题信息

大模型开发

难度：

0条回答 1收藏 19浏览

扫一扫，把题目装进口袋