昨天 21:40 上海交通大学算法工程师发布于上海

关注

Qwen是怎么实现超长上下文的？

面试题简述

现在模型都在追求上下文，你知道业界一般怎么做的吗？比如Qwen是怎么实现超长上下文能力的？

面试官想听的

1、解释超长上下文的常见技术路线。

2、能具体说出 Qwen 的 Attention Sinks。

3、能提到 RoPE 插值、多尺度位置编码。

面试示例回答

业界主流的上下文方案包括：

1、位置编码扩展，比如 RoPE 插值。

2、注意力稀疏化，比如 Longformer。

3、扩展 KV Cache，如 MQA/GQA。

4、Attention Sinks 解决模型以往问题。

详细内容可跳转该链接查看详情：http://xhslink.com/o/9If4fL2eS0F

由浅入深分析

1、RoPE插值（最主流）

（1）原因：原始 RoPE 在长序列下会失真。

（2）解决：线性插值、NTK-aware、分段插值。

（3）Qwen使用增强版插值 -> 支持超长 context

2、Attention Sinks

（1）现场：模型看到很长文本后前文被忘掉

（2）原因：注意力随深度衰减

（3）解决：人为加入若干 Sink tokens，让注意力返回前文。

3、注意力稀疏化

（1）Longformer/BigBird

（2）适合更长序列，但难与原生LLM兼容，因此商业LLM大多选择 RoPE 插值路线。

面试加分点

1、提 Qwen 的 Attention Sinks。

2、能解释 RoPE 插值为什么有效。

3、能描述长文本遗忘现象。

#大模型##春招##实习##面经##面试#

全部评论

推荐最新楼层

11-28 09:23

门头沟学院后端工程师

目前0offer但收到一个实习转正的要去吗？

投票

公司规模400人左右，在北京做AI算力平台租赁的，实习260/d，转正是月薪2w+ 六险一金，要all in 吗，希望牛友们给点意见

想实习转正，又想准备秋招...

点赞评论收藏

不愿透露姓名的神秘牛友

11-26 19:09

字节开了个大白菜，但签字费挺多

字节跳动后端 28*15 + 6w签字费本科211

点赞评论收藏

不愿透露姓名的神秘牛友

11-27 14:32

快手后端，泡了2个月就这？？

后端开发，985硕，给了25.5*16，吃石的感觉不要太爽哦！再见了您内！

求求来个offer_...：羡慕，佬看不上的offer，是我的遥不可及的

校招薪资来揭秘

点赞评论收藏

11-28 18:24

重庆大学前端开发其它

美团亏了160亿，怪不得这么多白菜价

看了美团新发布的财报，好家伙，亏损160亿丑团这难道走下坡路了吗？难怪看到这么多人说开到白菜offer......要是这样，大伙儿还能喝到0.99的奶茶吗？

想进开水团喝开水：美团白菜已是众所周知吃了今年第一波开奖的亏

投递美团等公司9个岗位

点赞评论收藏

不愿透露姓名的神秘牛友

11-27 14:30

腾讯研发，喜提白菜价？

在北京，硕211给了25*15，是不是白菜价啊？

校招薪资来揭秘

点赞评论收藏

招聘动态

成方金融科技有限公司

MiniMax

全站热榜

华为开奖交流

热聊中

创作者周榜

正在热议

# 高薪高压 vs 低薪wlb，你怎么选？ #