文档
推测解码
推测解码是一种可以大幅提升大语言模型 (LLM) 生成速度而不降低响应质量的技术。详情请参阅推测解码。
要在lmstudio-js
中使用推测解码,只需在执行预测时提供一个draftModel
参数即可。您无需单独加载草稿模型。
import { LMStudioClient } from "@lmstudio/sdk";
const client = new LMStudioClient();
const mainModelKey = "qwen2.5-7b-instruct";
const draftModelKey = "qwen2.5-0.5b-instruct";
const model = await client.llm.model(mainModelKey);
const result = await model.respond("What are the prime numbers between 0 and 100?", {
draftModel: draftModelKey,
});
const { content, stats } = result;
console.info(content);
console.info(`Accepted ${stats.acceptedDraftTokensCount}/${stats.predictedTokensCount} tokens`);