您可以自定义模型的推理时和加载时参数。推理参数可以按请求设置，而加载参数在加载模型时设置。

推理参数

设置推理时参数，例如 temperature、maxTokens、topP 等。

result = model.respond(chat, config={
    "temperature": 0.6,
    "maxTokens": 50,
})

有关所有可配置字段，请参阅 Typescript SDK 文档中的 LLMPredictionConfigInput。

请注意，虽然可以将 structured 设置为 JSON 模式定义作为推理时配置参数（Python SDK 不支持 Zod 模式），但首选方法是设置专用的 response_format 参数，这样您可以使用 JSON 或基于类的模式定义更严格地强制输出结构。

加载参数

设置加载时参数，例如上下文长度、GPU 卸载比率等。

使用 `.model()` 设置加载参数

.model() 获取已加载模型的句柄，或按需加载新模型（即时加载）。

注意：如果模型已加载，则给定配置将被忽略。

import lmstudio as lms
model = lms.llm("qwen2.5-7b-instruct", config={
    "contextLength": 8192,
    "gpu": {
      "ratio": 0.5,
    }
})

有关所有可配置字段，请参阅 Typescript SDK 文档中的 LLMLoadModelConfig。

使用 `.load_new_instance()` 设置加载参数

.load_new_instance() 方法创建一个新的模型实例，并使用指定的配置加载它。

import lmstudio as lms
client = lms.get_default_client()
model = client.llm.load_new_instance("qwen2.5-7b-instruct", config={
    "contextLength": 8192,
    "gpu": {
      "ratio": 0.5,
    }
})

有关所有可配置字段，请参阅 Typescript SDK 文档中的 LLMLoadModelConfig。

配置模型

推理参数

加载参数

使用 .model() 设置加载参数

使用 .load_new_instance() 设置加载参数

使用 `.model()` 设置加载参数

使用 `.load_new_instance()` 设置加载参数