今天复盘了 Speculative Sampling(投机采样),给自己记3个关键点:
1)先用小模型连续起草 K 个 token,再让大模型一次并行校验;
2)接受概率用 min(1, q/p),错的 token 直接拒绝并重采样;
3)所以它不是“赌运气加速”,而是“在保证目标分布不变前提下提速”。
直觉上就是:把大模型最贵的调用次数降下来,但不牺牲正确性。
面试里如果被问“为什么投机采样不影响质量”,核心就一句:
👉 接受-拒绝步骤保证最终样本仍来自目标模型分布。
#大模型# #推理优化# #算法面试#