文档
基础知识
推测解码
在 lmstudio-python
中使用草稿模型进行推测解码的 API
所需 Python SDK 版本:1.2.0
推测解码是一种可以大幅提高大型语言模型 (LLM) 生成速度而不降低响应质量的技术。有关更多信息,请参阅推测解码。
要在 lmstudio-python
中使用推测解码,只需在执行预测时提供 draftModel
参数即可。您无需单独加载草稿模型。
import lmstudio as lms
main_model_key = "qwen2.5-7b-instruct"
draft_model_key = "qwen2.5-0.5b-instruct"
model = lms.llm(main_model_key)
result = model.respond(
"What are the prime numbers between 0 and 100?",
config={
"draftModel": draft_model_key,
}
)
print(result)
stats = result.stats
print(f"Accepted {stats.accepted_draft_tokens_count}/{stats.predicted_tokens_count} tokens")
此页面的源文件可在 GitHub 上获取