Qwen是怎么实现超长上下文的?

面试题简述

现在模型都在追求上下文,你知道业界一般怎么做的吗?比如Qwen是怎么实现超长上下文能力的?

面试官想听的

1、解释超长上下文的常见技术路线。

2、能具体说出 Qwen 的 Attention Sinks。

3、能提到 RoPE 插值、多尺度位置编码。

面试示例回答

业界主流的上下文方案包括:

1、位置编码扩展,比如 RoPE 插值。

2、注意力稀疏化,比如 Longformer。

3、扩展 KV Cache,如 MQA/GQA。

4、Attention Sinks 解决模型以往问题。

详细内容可跳转该链接查看详情:http://xhslink.com/o/9If4fL2eS0F

由浅入深分析

1、RoPE插值(最主流)

(1)原因:原始 RoPE 在长序列下会失真。

(2)解决:线性插值、NTK-aware、分段插值。

(3)Qwen使用增强版插值 -> 支持超长 context

2、Attention Sinks

(1)现场:模型看到很长文本后前文被忘掉

(2)原因:注意力随深度衰减

(3)解决:人为加入若干 Sink tokens,让注意力返回前文。

3、注意力稀疏化

(1)Longformer/BigBird

(2)适合更长序列,但难与原生LLM兼容,因此商业LLM大多选择 RoPE 插值路线。

面试加分点

1、提 Qwen 的 Attention Sinks。

2、能解释 RoPE 插值为什么有效。

3、能描述长文本遗忘现象。

#大模型##春招##实习##面经##面试#
全部评论

相关推荐

不愿透露姓名的神秘牛友
11-26 19:09
字节跳动 后端 28*15 + 6w签字费 本科211
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
11-27 14:32
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
11-27 14:30
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务