首页 > 试题广场 >

以下哪些技术可以帮助大模型有效处理更长的上下文序列？

[不定项选择题]

NTK-aware插值(对RoPE基频进行缩放)

YaRN(对不同频率分量差异化处理)

Sliding Window Attention(限制每层注意力范围)

Flash Attention(优化注意力计算IO)

查看正确选项

牛客933450814号

题目解析的严谨性 (考点的钻牛角尖)

题目里的“有效处理”在出题人看来是指 “模型能力（结构改变）”，而不是 “计算效率”。

官方解析的观点：即使没有 Flash Attention，只要你有无限大的显存，你依然可以用标准 Attention 处理 1M 的长度。Flash Attention 只是让你在有限显存下跑得动。
你的观点（工程视角）：没有 Flash Attention，显存直接炸了，根本没法“处理”。所以它是必要的。

在做这类大模型概念题时，通常会把技术分为两类：