文档

Agentic Flows

文本嵌入

分词

管理模型

模型信息

API 参考

配置模型

您可以自定义模型的推理时和加载时参数。推理参数可以按请求设置,而加载参数在加载模型时设置。

推理参数

设置推理时参数,例如 temperaturemaxTokenstopP 等。

const prediction = model.respond(chat, {
  temperature: 0.6,
  maxTokens: 50,
});

请参阅 LLMPredictionConfigInput 以查看所有可配置字段。

另一个有用的推理时配置参数是 structured,它允许您使用 JSON 或 zod schema 严格执行输出的结构。

加载参数

设置加载时参数,例如 contextLengthgpuOffload 等。

使用 .model() 设置加载参数

.model() 检索已加载模型的句柄,或按需加载新模型(JIT 加载)。

注意:如果模型已加载,配置将被忽略

const model = await client.llm.model("qwen2.5-7b-instruct", {
  config: {
    contextLength: 8192,
    gpu: {
      ratio: 0.5,
    },
  },
});

请参阅 LLMLoadModelConfig 以查看所有可配置字段。

使用 .load() 设置加载参数

.load() 方法创建一个新的模型实例,并使用指定的配置加载它。

const model = await client.llm.load("qwen2.5-7b-instruct", {
  config: {
    contextLength: 8192,
    gpu: {
      ratio: 0.5,
    },
  },
});

请参阅 LLMLoadModelConfig 以查看所有可配置字段。