文档

代理流程

文本嵌入

分词

管理模型

模型信息

API 参考

配置模型

您可以自定义模型的推理时参数和加载时参数。推理参数可以按请求设置,而加载参数在加载模型时设置。

推理参数

设置推理时参数,例如 temperaturemaxTokenstopP 等。

const prediction = model.respond(chat, {
  temperature: 0.6,
  maxTokens: 50,
});

有关所有可配置字段,请参阅 LLMPredictionConfigInput

另一个有用的推理时配置参数是 structured,它允许您使用 JSON 或 zod 模式严格强制输出的结构。

加载参数

设置加载时参数,例如上下文长度、GPU 卸载比等。

使用 .model() 设置加载参数

.model() 方法检索已加载模型的句柄,或按需加载新模型(JIT 加载)。

注意:如果模型已加载,则配置将被**忽略**。

const model = await client.llm.model("qwen2.5-7b-instruct", {
  config: {
    contextLength: 8192,
    gpu: {
      ratio: 0.5,
    },
  },
});

有关所有可配置字段,请参阅 LLMLoadModelConfig

使用 .load() 设置加载参数

.load() 方法创建新的模型实例并使用指定的配置加载它。

const model = await client.llm.load("qwen2.5-7b-instruct", {
  config: {
    contextLength: 8192,
    gpu: {
      ratio: 0.5,
    },
  },
});

有关所有可配置字段,请参阅 LLMLoadModelConfig