文档
配置模型
您可以自定义模型的推理时和加载时参数。推理参数可以按请求设置,而加载参数在加载模型时设置。
设置推理时参数,例如 temperature
、maxTokens
、topP
等。
const prediction = model.respond(chat, {
temperature: 0.6,
maxTokens: 50,
});
请参阅 LLMPredictionConfigInput
以查看所有可配置字段。
另一个有用的推理时配置参数是 structured
,它允许您使用 JSON 或 zod schema 严格执行输出的结构。
设置加载时参数,例如 contextLength
、gpuOffload
等。
.model()
设置加载参数.model()
检索已加载模型的句柄,或按需加载新模型(JIT 加载)。
注意:如果模型已加载,配置将被忽略。
const model = await client.llm.model("qwen2.5-7b-instruct", {
config: {
contextLength: 8192,
gpu: {
ratio: 0.5,
},
},
});
请参阅 LLMLoadModelConfig
以查看所有可配置字段。
.load()
设置加载参数.load()
方法创建一个新的模型实例,并使用指定的配置加载它。
const model = await client.llm.load("qwen2.5-7b-instruct", {
config: {
contextLength: 8192,
gpu: {
ratio: 0.5,
},
},
});
请参阅 LLMLoadModelConfig
以查看所有可配置字段。