文档
配置模型
您可以自定义模型的推理时和加载时参数。推理参数可以按请求设置,而加载参数在加载模型时设置。
设置推理时参数,例如 temperature
、maxTokens
、topP
等。
result = model.respond(chat, config={
"temperature": 0.6,
"maxTokens": 50,
})
有关所有可配置字段,请参阅 Typescript SDK 文档中的 LLMPredictionConfigInput
。
请注意,虽然可以将 structured
设置为 JSON 模式定义作为推理时配置参数(Python SDK 不支持 Zod 模式),但首选方法是设置 专用的 response_format
参数,这样您可以使用 JSON 或基于类的模式定义更严格地强制输出结构。
设置加载时参数,例如上下文长度、GPU 卸载比率等。
.model()
设置加载参数.model()
获取已加载模型的句柄,或按需加载新模型(即时加载)。
注意:如果模型已加载,则给定配置将被忽略。
import lmstudio as lms
model = lms.llm("qwen2.5-7b-instruct", config={
"contextLength": 8192,
"gpu": {
"ratio": 0.5,
}
})
有关所有可配置字段,请参阅 Typescript SDK 文档中的 LLMLoadModelConfig
。
.load_new_instance()
设置加载参数.load_new_instance()
方法创建一个新的模型实例,并使用指定的配置加载它。
import lmstudio as lms
client = lms.get_default_client()
model = client.llm.load_new_instance("qwen2.5-7b-instruct", config={
"contextLength": 8192,
"gpu": {
"ratio": 0.5,
}
})
有关所有可配置字段,请参阅 Typescript SDK 文档中的 LLMLoadModelConfig
。
本页内容
推理参数
加载参数
使用 .model() 设置加载参数
使用 .load_new_instance() 设置加载参数