首页 > 试题广场 >

在使用vLLM部署模型时,Speculative Decod

[单选题]
在使用vLLM部署模型时,Speculative Decoding(推测解码)的工作原理是什么?
  • 使用多个GPU并行生成不同的候选Token
  • 用一个小的Draft模型快速生成多个候选Token,再用大的Target模型一次性验证,接受正确的Token
  • 预测用户可能的后续问题并提前生成回答
  • 缓存常见问题的回答以加速响应

这道题你会答吗?花几分钟告诉大家答案吧!