首页 > 试题广场 >

在使用vLLM部署模型时，Speculative Decod

[单选题]

在使用vLLM部署模型时，Speculative Decoding（推测解码）的工作原理是什么？

使用多个GPU并行生成不同的候选Token

用一个小的Draft模型快速生成多个候选Token，再用大的Target模型一次性验证，接受正确的Token

预测用户可能的后续问题并提前生成回答

缓存常见问题的回答以加速响应

查看正确选项

这道题你会答吗？花几分钟告诉大家答案吧！

提交观点

问题信息

大模型开发

难度：

0条回答 1收藏 19浏览

扫一扫，把题目装进口袋