文档

基础知识

什么是投机采样

lmstudio-python 中使用推测解码(speculative decoding)草稿模型的 API

所需的 Python SDK 版本1.2.0

推测解码是一种无需降低响应质量即可显著提高大型语言模型 (LLM) 生成速度的技术。更多信息请参阅 推测解码

要在 lmstudio-python 中使用推测解码,只需在执行预测时提供 draftModel 参数即可。无需单独加载草稿模型。

import lmstudio as lms

main_model_key = "qwen2.5-7b-instruct"
draft_model_key = "qwen2.5-0.5b-instruct"

model = lms.llm(main_model_key)
result = model.respond(
    "What are the prime numbers between 0 and 100?",
    config={
        "draftModel": draft_model_key,
    }
)

print(result)
stats = result.stats
print(f"Accepted {stats.accepted_draft_tokens_count}/{stats.predicted_tokens_count} tokens")

此页面的源代码可在 GitHub 上获取