文档

入门

代理流程

文本嵌入

分词

管理模型

模型信息

配置模型

您可以自定义模型的推理时和加载时参数。推理参数可以按请求设置,而加载参数在加载模型时设置。

推理参数

设置推理时参数,例如 temperaturemaxTokenstopP 等。

result = model.respond(chat, config={
    "temperature": 0.6,
    "maxTokens": 50,
})

有关所有可配置字段,请参阅 Typescript SDK 文档中的 LLMPredictionConfigInput

请注意,虽然可以将 structured 设置为 JSON 模式定义作为推理时配置参数(Python SDK 不支持 Zod 模式),但首选方法是设置 专用的 response_format 参数,这样您可以使用 JSON 或基于类的模式定义更严格地强制输出结构。

加载参数

设置加载时参数,例如上下文长度、GPU 卸载比率等。

使用 .model() 设置加载参数

.model() 获取已加载模型的句柄,或按需加载新模型(即时加载)。

注意:如果模型已加载,则给定配置将被忽略

import lmstudio as lms
model = lms.llm("qwen2.5-7b-instruct", config={
    "contextLength": 8192,
    "gpu": {
      "ratio": 0.5,
    }
})

有关所有可配置字段,请参阅 Typescript SDK 文档中的 LLMLoadModelConfig

使用 .load_new_instance() 设置加载参数

.load_new_instance() 方法创建一个新的模型实例,并使用指定的配置加载它。

import lmstudio as lms
client = lms.get_default_client()
model = client.llm.load_new_instance("qwen2.5-7b-instruct", config={
    "contextLength": 8192,
    "gpu": {
      "ratio": 0.5,
    }
})

有关所有可配置字段,请参阅 Typescript SDK 文档中的 LLMLoadModelConfig