文档

基础知识

配置模型

用于设置模型推理时参数和加载时参数的 API

您可以为模型自定义推理时参数和加载时参数。推理参数可按请求进行设置,而加载参数则在模型加载时进行设置。

推理参数

设置推理时参数,例如 temperature(温度)、maxTokens(最大 Token 数)、topP 等。

result = model.respond(chat, config={
    "temperature": 0.6,
    "maxTokens": 50,
})

请参阅 Typescript SDK 文档中的 LLMPredictionConfigInput 以获取所有可配置字段。

注意:虽然 structured 可以作为推理时配置参数设置为 JSON 模式定义(Python SDK 不支持 Zod 模式),但更好的做法是改为设置 专用的 response_format 参数,这允许您使用基于 JSON 或类的模式定义更严格地强制执行输出结构。

加载参数

设置加载时参数,例如上下文长度、GPU 卸载比例等。

使用 .model() 设置加载参数

.model() 方法用于获取已加载模型的句柄,或根据需要加载新模型(JIT 加载)。

注意:如果模型已加载,则给定的配置将被忽略

import lmstudio as lms

model = lms.llm("qwen2.5-7b-instruct", config={
    "contextLength": 8192,
    "gpu": {
      "ratio": 0.5,
    }
})

请参阅 Typescript SDK 文档中的 LLMLoadModelConfig 以获取所有可配置字段。

使用 .load_new_instance() 设置加载参数

.load_new_instance() 方法会创建模型的新实例并使用指定的配置进行加载。

import lmstudio as lms

client = lms.get_default_client()
model = client.llm.load_new_instance("qwen2.5-7b-instruct", config={
    "contextLength": 8192,
    "gpu": {
      "ratio": 0.5,
    }
})

请参阅 Typescript SDK 文档中的 LLMLoadModelConfig 以获取所有可配置字段。

本页面源码可在 GitHub 上找到