文档
配置模型
您可以自定义模型的推理时和加载时参数。推理参数可以按请求设置,而加载参数在加载模型时设置。
设置推理时参数,例如 temperature
、maxTokens
、topP
等。
result = model.respond(chat, config={
"temperature": 0.6,
"maxTokens": 50,
})
请注意,虽然可以将 structured
设置为 JSON 模式定义作为推理时配置参数,但首选方法是设置专用的 response_format
参数,这使您可以使用基于 JSON 或类的模式定义更严格地强制执行输出的结构。
设置加载时参数,例如 contextLength
、gpuOffload
等。
.model()
设置加载参数.model()
检索已加载模型的句柄,或者按需加载新模型(JIT 加载)。
注意:如果模型已加载,配置将被忽略。
import lmstudio as lms
model = lms.llm("qwen2.5-7b-instruct", config={
"contextLength": 8192,
"gpuOffload": 0.5,
})
.load_new_instance()
设置加载参数.load_new_instance()
方法创建一个新的模型实例,并使用指定的配置加载它。
import lmstudio as lms
client = lms.get_default_client()
model = client.llm.load_new_instance("qwen2.5-7b-instruct", config={
"contextLength": 8192,
"gpuOffload": 0.5,
})