文档
API 更新日志
类似 OpenAI 的 REST API 现在支持 tool_choice
参数
{ "tool_choice": "auto" // or "none", "required" }
"tool_choice": "none"
— 模型将不调用工具"tool_choice": "auto"
— 模型自行决定"tool_choice": "required"
— 模型必须调用工具(仅限 llama.cpp)分块响应在适当情况下会设置 "finish_reason": "tool_calls"
。
RESTful API 和 SDK 支持在请求中指定预设。
(需要示例)
在 API 请求中通过 "draft_model"
启用推测解码
{ "model": "deepseek-r1-distill-qwen-7b", "draft_model": "deepseek-r1-distill-qwen-0.5b", "messages": [ ... ] }
响应现在包含一个用于推测解码的 stats
对象
"stats": { "tokens_per_second": ..., "draft_model": "...", "total_draft_tokens_count": ..., "accepted_draft_tokens_count": ..., "rejected_draft_tokens_count": ..., "ignored_draft_tokens_count": ... }
为通过 API 请求加载的模型设置 TTL(秒)(文档文章:空闲 TTL 和自动逐出)
curl https://:1234/api/v0/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "deepseek-r1-distill-qwen-7b", "messages": [ ... ] + "ttl": 300, }'
使用 lms
lms load --ttl <seconds>
reasoning_content
对于 DeepSeek R1 模型,可在单独字段中获取推理内容。更多信息请见此处。
在应用程序设置 > 开发者中开启此功能。
通过类似 OpenAI 的 API 使用任何支持工具使用和函数调用的 LLM。
文档:工具使用和函数调用。
lms get
:从终端下载模型您现在可以使用关键词直接从终端下载模型
lms get deepseek-r1
或完整的 Hugging Face URL
lms get <hugging face url>
若要仅筛选 MLX 模型,请在命令中添加 --mlx
。
lms get deepseek-r1 --mlx
本页内容
改进的工具使用 API 支持
[API/SDK] 预设支持
推测解码 API
空闲 TTL 和自动逐出
在聊天完成响应中分离 reasoning_content
工具和函数调用 API
介绍 lms get:从终端下载模型