文档
配置模型
您可以自定义模型的推理时参数和加载时参数。推理参数可以按请求设置,而加载参数在加载模型时设置。
设置推理时参数,例如 temperature
、maxTokens
、topP
等。
const prediction = model.respond(chat, {
temperature: 0.6,
maxTokens: 50,
});
有关所有可配置字段,请参阅 LLMPredictionConfigInput
。
另一个有用的推理时配置参数是 structured
,它允许您使用 JSON 或 zod 模式严格强制输出的结构。
设置加载时参数,例如上下文长度、GPU 卸载比等。
.model()
设置加载参数.model()
方法检索已加载模型的句柄,或按需加载新模型(JIT 加载)。
注意:如果模型已加载,则配置将被**忽略**。
const model = await client.llm.model("qwen2.5-7b-instruct", {
config: {
contextLength: 8192,
gpu: {
ratio: 0.5,
},
},
});
有关所有可配置字段,请参阅 LLMLoadModelConfig
。
.load()
设置加载参数.load()
方法创建新的模型实例并使用指定的配置加载它。
const model = await client.llm.load("qwen2.5-7b-instruct", {
config: {
contextLength: 8192,
gpu: {
ratio: 0.5,
},
},
});
有关所有可配置字段,请参阅 LLMLoadModelConfig
。
本页内容
推理参数
加载参数
使用 .model() 设置加载参数
使用 .load() 设置加载参数