文档
您可以为模型自定义推理时参数和加载时参数。推理参数可按请求进行设置,而加载参数则在模型加载时进行设置。
设置推理时参数,例如 temperature(温度)、maxTokens(最大 Token 数)、topP 等。
result = model.respond(chat, config={
"temperature": 0.6,
"maxTokens": 50,
})
请参阅 Typescript SDK 文档中的 LLMPredictionConfigInput 以获取所有可配置字段。
注意:虽然 structured 可以作为推理时配置参数设置为 JSON 模式定义(Python SDK 不支持 Zod 模式),但更好的做法是改为设置 专用的 response_format 参数,这允许您使用基于 JSON 或类的模式定义更严格地强制执行输出结构。
设置加载时参数,例如上下文长度、GPU 卸载比例等。
.model() 设置加载参数.model() 方法用于获取已加载模型的句柄,或根据需要加载新模型(JIT 加载)。
注意:如果模型已加载,则给定的配置将被忽略。
import lmstudio as lms
model = lms.llm("qwen2.5-7b-instruct", config={
"contextLength": 8192,
"gpu": {
"ratio": 0.5,
}
})
请参阅 Typescript SDK 文档中的 LLMLoadModelConfig 以获取所有可配置字段。
.load_new_instance() 设置加载参数.load_new_instance() 方法会创建模型的新实例并使用指定的配置进行加载。
import lmstudio as lms
client = lms.get_default_client()
model = client.llm.load_new_instance("qwen2.5-7b-instruct", config={
"contextLength": 8192,
"gpu": {
"ratio": 0.5,
}
})
请参阅 Typescript SDK 文档中的 LLMLoadModelConfig 以获取所有可配置字段。
本页面源码可在 GitHub 上找到