一次看懂投机采样:为什么能“提速不降质”?

今天复盘了 Speculative Sampling(投机采样),给自己记3个关键点:

1)先用小模型连续起草 K 个 token,再让大模型一次并行校验;
2)接受概率用 min(1, q/p),错的 token 直接拒绝并重采样;
3)所以它不是“赌运气加速”,而是“在保证目标分布不变前提下提速”。

直觉上就是:把大模型最贵的调用次数降下来,但不牺牲正确性。

面试里如果被问“为什么投机采样不影响质量”,核心就一句:
👉 接受-拒绝步骤保证最终样本仍来自目标模型分布。

#大模型# #推理优化# #算法面试#
全部评论

相关推荐

点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务