投机采样:为什么能提速还不掉质?

最近复盘推理加速时,终于把投机采样(Speculative Sampling)想明白了:

它不是“让小模型替代大模型”,而是“让小模型先起草,大模型集中验收”。

我自己的理解是三步:
1)小模型先连续给出K个token草稿;
2)大模型一次前向并行校验这K个token;
3)遇到不靠谱token就拒绝并重采样,保证最终分布仍对齐大模型。

核心收益:把大模型“逐token串行调用”改成“批量验收”,吞吐会明显提升。
核心底线:有拒绝采样兜底,不是盲目加速,所以质量不靠运气。

如果你正在做推理优化,这条线很值得深挖:先看接受率,再看K值和草稿模型大小的平衡点。

#大模型# #推理优化# #算法工程师#
全部评论

相关推荐

评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务