文档

LM Studio REST API

加载模型

通过自定义推理配置将 LLM(大语言模型)或 Embedding(嵌入)模型加载到内存中

POST /api/v1/models/load

请求体

model : string

要加载的模型的唯一标识符。可以是 LLM 或嵌入模型。

context_length (可选) : 数字

模型将考虑的最大 Token 数量。

eval_batch_size (可选) : 数字

在评估期间单个批次中一起处理的输入 Token 数量。仅对由 LM Studio 的 llama.cpp 引擎加载的 LLM 有效。

flash_attention (可选) : 布尔值

是否优化注意力计算。可以减少内存使用并提高生成速度。仅对由 LM Studio 的 llama.cpp 引擎加载的 LLM 有效。

num_experts (可选) : 数字

用于 MoE(混合专家)模型推理的专家数量。仅对由 LM Studio 的 llama.cpp 引擎加载的 MoE LLM 有效。

offload_kv_cache_to_gpu (可选) : 布尔值

是否将 KV 缓存卸载到 GPU 内存。如果为 false,KV 缓存将存储在 CPU 内存/RAM 中。仅对由 LM Studio 的 llama.cpp 引擎加载的 LLM 有效。

echo_load_config (可选) : 布尔值

如果为 true,则在响应中的 "load_config" 字段下回显最终的加载配置。默认为 false

curl https://:1234/api/v1/models/load \
  -H "Authorization: Bearer $LM_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-oss-20b",
    "context_length": 16384,
    "flash_attention": true,
    "echo_load_config": true
  }'

响应字段

type : "llm" | "embedding"

已加载模型的类型。

instance_id : 字符串

已加载模型实例的唯一标识符。

load_time_seconds : 数字

模型加载所花费的时间(秒)。

status : "loaded"

加载状态。

load_config (可选) : 对象

应用于已加载模型的最终配置。这可能包含请求中未指定的设置。仅当请求中 "echo_load_config"true 时包含。

LLM 加载配置 : 对象

特定于 LLM 模型的配置参数。当 "type""llm" 时,load_config 将为此类型。仅包含应用于加载的参数。

context_length : 数字

模型将考虑的最大 Token 数量。

eval_batch_size (可选) : 数字

在评估期间单个批次中一起处理的输入 Token 数量。仅存在于使用 LM Studio 的 llama.cpp 引擎加载的模型中。

flash_attention (可选) : 布尔值

是否启用了 Flash Attention 以进行优化的注意力计算。仅存在于使用 LM Studio 的 llama.cpp 引擎加载的模型中。

num_experts (可选) : 数字

MoE(混合专家)模型的专家数量。仅存在于使用 LM Studio 的 llama.cpp 引擎加载的 MoE 模型中。

offload_kv_cache_to_gpu (可选) : 布尔值

是否将 KV 缓存卸载到 GPU 内存。仅存在于使用 LM Studio 的 llama.cpp 引擎加载的模型中。

嵌入模型加载配置 : 对象

特定于嵌入模型的配置参数。当 "type""embedding" 时,load_config 将为此类型。仅包含应用于加载的参数。

context_length : 数字

模型将考虑的最大 Token 数量。

{
  "type": "llm",
  "instance_id": "openai/gpt-oss-20b",
  "load_time_seconds": 9.099,
  "status": "loaded",
  "load_config": {
    "context_length": 16384,
    "eval_batch_size": 512,
    "flash_attention": true,
    "offload_kv_cache_to_gpu": true,
    "num_experts": 4
  }
}

此页面的源代码可在 GitHub 上找到