文档
Anthropic 兼容端点
Anthropic 兼容端点
POST /v1/messages。/api/v1/*。
/v1/responses 和变体列表POST /v1/responses。previous_response_id 实现有状态交互。openai/gpt‑oss‑20b 提供带有 reasoning.effort 的推理支持。stream: true 时通过 SSE 进行流式传输。lms ls --variants 列出多变体模型的所有变体。lms load --estimate-only <model> 可在加载前打印预计的 GPU 和总内存占用。支持 --context-length 和 --gpu 参数,并使用了改进的估算器,现在可计算 Flash Attention 和视觉模型。lms chat:按下 Ctrl+C 可中断正在进行的预测。lms ps --json 现在报告每个模型的生成状态和排队的预测请求数量。lms log stream 现在支持多个来源和过滤器。--source server 流式传输 HTTP 服务器日志(启动、端点、状态)--source model --filter input,output 流式传输格式化的用户输入和模型输出--json 获取机器可读日志;--stats 可添加 tokens/sec 及相关指标(模型来源)/v1/embeddings 端点 ‡。POST /v1/chat/completions 中的 gpt‑oss 模型,推理内容已从 message.content 移至 choices.message.reasoning(非流式)和 choices.delta.reasoning(流式),与 o3‑mini 对齐 ‡。POST /v1/chat/completions 请求产生的错误(例如“reading 'properties'”)以及非流式工具调用失败的问题 ‡。stream_options 对象的支持。设置 stream_options.include_usage 为 true,即可在流式传输期间返回提示词和补全 Token 的使用量 ‡。response_format.type 字段在聊天补全请求中现在接受 "text" ‡。$defs 被剔除的问题 ‡。parameters 对象的工具,以及防止 MCP 服务器重新加载时发生挂起 ‡。GET /models 中的模型能力/api/v0) 现在在 GET /models 响应中返回一个 capabilities 数组。每个模型都会列出其支持的能力(例如 "tool_use")‡,以便客户端可以编程方式发现支持工具调用的模型。类 OpenAI 的 REST API 现在支持 tool_choice 参数
{ "tool_choice": "auto" // or "none", "required" }
"tool_choice": "none" — 模型将不调用工具"tool_choice": "auto" — 由模型自主决定"tool_choice": "required" — 模型必须调用工具(仅限 llama.cpp)分块响应现在会在适当的情况下设置 "finish_reason": "tool_calls"。
RESTful API 和 SDK 支持在请求中指定预设。
(需要示例)
通过 API 请求中的 "draft_model" 启用推测解码
{ "model": "deepseek-r1-distill-qwen-7b", "draft_model": "deepseek-r1-distill-qwen-0.5b", "messages": [ ... ] }
响应现在包含一个用于推测解码的 stats 对象
"stats": { "tokens_per_second": ..., "draft_model": "...", "total_draft_tokens_count": ..., "accepted_draft_tokens_count": ..., "rejected_draft_tokens_count": ..., "ignored_draft_tokens_count": ... }
为通过 API 请求加载的模型设置 TTL(秒)(文档文章:空闲 TTL 和自动驱逐)
curl https://:1234/api/v0/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "deepseek-r1-distill-qwen-7b", "messages": [ ... ] + "ttl": 300, }'
通过 lms 使用
lms load --ttl <seconds>
reasoning_content对于 DeepSeek R1 模型,在单独的字段中获取推理内容。了解更多请点击此处。
在“应用程序设置 > 开发者”中启用此功能。
使用任何支持工具使用和函数调用的 LLM(通过 OpenAI 风格的 API)。
文档:工具使用和函数调用。
lms get:从终端下载模型现在可以直接在终端中使用关键字下载模型
lms get deepseek-r1
或者使用完整的 Hugging Face URL
lms get <hugging face url>
若要仅筛选 MLX 模型,请在命令中添加 --mlx。
lms get deepseek-r1 --mlx
本页面的源代码可在 GitHub 上找到
本页内容
兼容 Anthropic 的 API
LM Studio 原生 v1 REST API
OpenAI /v1/responses 和变体列表
CLI:模型资源评估、状态和中断
CLI 日志流:服务器 + 模型
新模型支持 (API)
Seed‑OSS 工具调用和模板修复
推理内容和工具调用可靠性
流式传输和工具调用的 Bug 修复
流式传输选项和工具调用改进
工具调用可靠性和 Token 计数更新
GET /models 中的模型能力
改进了工具使用 API 支持
[API/SDK] 预设支持
推测解码 API
空闲 TTL 和自动驱逐
聊天补全响应中的独立 reasoning_content
工具和函数调用 API
引入 lms get:从终端下载模型