文档
Anthropic 兼容端点
Anthropic 兼容端点
POST /api/v1/models/load
请求体
model : string
要加载的模型的唯一标识符。可以是 LLM 或嵌入模型。
context_length (可选) : 数字
模型将考虑的最大 Token 数量。
eval_batch_size (可选) : 数字
在评估期间单个批次中一起处理的输入 Token 数量。仅对由 LM Studio 的 llama.cpp 引擎加载的 LLM 有效。
flash_attention (可选) : 布尔值
是否优化注意力计算。可以减少内存使用并提高生成速度。仅对由 LM Studio 的 llama.cpp 引擎加载的 LLM 有效。
num_experts (可选) : 数字
用于 MoE(混合专家)模型推理的专家数量。仅对由 LM Studio 的 llama.cpp 引擎加载的 MoE LLM 有效。
offload_kv_cache_to_gpu (可选) : 布尔值
是否将 KV 缓存卸载到 GPU 内存。如果为 false,KV 缓存将存储在 CPU 内存/RAM 中。仅对由 LM Studio 的 llama.cpp 引擎加载的 LLM 有效。
echo_load_config (可选) : 布尔值
如果为 true,则在响应中的 "load_config" 字段下回显最终的加载配置。默认为 false。
curl https://:1234/api/v1/models/load \
-H "Authorization: Bearer $LM_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"model": "openai/gpt-oss-20b",
"context_length": 16384,
"flash_attention": true,
"echo_load_config": true
}'
响应字段
type : "llm" | "embedding"
已加载模型的类型。
instance_id : 字符串
已加载模型实例的唯一标识符。
load_time_seconds : 数字
模型加载所花费的时间(秒)。
status : "loaded"
加载状态。
load_config (可选) : 对象
应用于已加载模型的最终配置。这可能包含请求中未指定的设置。仅当请求中 "echo_load_config" 为 true 时包含。
LLM 加载配置 : 对象
特定于 LLM 模型的配置参数。当 "type" 为 "llm" 时,load_config 将为此类型。仅包含应用于加载的参数。
context_length : 数字
模型将考虑的最大 Token 数量。
eval_batch_size (可选) : 数字
在评估期间单个批次中一起处理的输入 Token 数量。仅存在于使用 LM Studio 的 llama.cpp 引擎加载的模型中。
flash_attention (可选) : 布尔值
是否启用了 Flash Attention 以进行优化的注意力计算。仅存在于使用 LM Studio 的 llama.cpp 引擎加载的模型中。
num_experts (可选) : 数字
MoE(混合专家)模型的专家数量。仅存在于使用 LM Studio 的 llama.cpp 引擎加载的 MoE 模型中。
offload_kv_cache_to_gpu (可选) : 布尔值
是否将 KV 缓存卸载到 GPU 内存。仅存在于使用 LM Studio 的 llama.cpp 引擎加载的模型中。
嵌入模型加载配置 : 对象
特定于嵌入模型的配置参数。当 "type" 为 "embedding" 时,load_config 将为此类型。仅包含应用于加载的参数。
context_length : 数字
模型将考虑的最大 Token 数量。
{
"type": "llm",
"instance_id": "openai/gpt-oss-20b",
"load_time_seconds": 9.099,
"status": "loaded",
"load_config": {
"context_length": 16384,
"eval_batch_size": 512,
"flash_attention": true,
"offload_kv_cache_to_gpu": true,
"num_experts": 4
}
}
此页面的源代码可在 GitHub 上找到