LM Studio 0.3.9
可选地在一定时间后自动卸载未使用的 API 模型
LM Studio 0.3.9 包含一个新功能:**空闲 TTL**,支持 Hugging Face 存储库中的嵌套文件夹,以及一个实验性 API,用于在聊天完成响应中以单独字段接收 reasoning_content
。
0.3.9 的早期版本在 DeepSeek R1 聊天完成响应流式传输方面存在一个 bug。请更新到最新版本 (5) 以修复此问题。
用例:想象您正在使用像 Zed、Cline 或 Continue.dev 这样的应用来与 LM Studio 提供的 LLM 进行交互。这些应用利用 JIT 在您首次使用模型时按需加载它们。
问题:当您不主动使用某个模型时,您可能不希望它一直加载在内存中。
解决方案:为通过 API 请求加载的模型设置一个 TTL(生存时间)。空闲计时器在模型每次收到请求时都会重置,因此在您使用它时它不会消失。如果模型没有执行任何工作,则被认为是空闲的。当空闲 TTL 到期时,模型会自动从内存中卸载。
您可以在请求负载中以秒为单位设置 TTL,或者在命令行中使用 lms load --ttl <seconds>
。
在文档文章中阅读更多:TTL 和自动驱逐。
reasoning_content
对于 DeepSeek R1,在单独的字段中获取推理内容
DeepSeek R1 模型在 <think>
</think>
标签内生成内容。此内容是模型的“推理”过程。在聊天完成响应中,您现在可以按照 DeepSeek API 中的模式,在名为 reasoning_content
的单独字段中接收此内容。
这适用于流式和非流式完成。您可以在“应用设置”>“开发者”中开启此功能。此功能目前处于实验阶段。
注意:根据 DeepSeek 的文档,您不应在下一次请求中将推理内容传回给模型。
LM Studio 支持多种 llama.cpp
引擎变体(仅限 CPU、CUDA、Vulkan、ROCm、Metal)以及 Apple MLX 引擎。这些引擎会频繁更新,尤其是在新模型发布时。
为了减少手动更新多个组件的需求,我们引入了运行时自动更新功能。此功能默认启用,但您可以在“应用设置”中将其关闭。
运行时更新后,您将看到显示发布说明的通知。您也可以在运行时选项卡中自行管理此功能:Windows/Linux 上为 Ctrl + Shift + R
,macOS 上为 Cmd + Shift + R
。
LM 运行时将自动更新到最新版本。您可以在设置中关闭此功能。
一项期待已久的功能:您现在可以从 Hugging Face 存储库的嵌套文件夹中下载模型。如果您喜欢的模型发布者将其模型组织在子文件夹中,您现在可以直接在 LM Studio 中下载它们。
这使得下载模型变得容易,例如 https://hugging-face.cn/unsloth/DeepSeek-R1-GGUF。对于 lms get <hugging face url>
也适用。
# Warning: this is a very large model lms get https://hugging-face.cn/unsloth/DeepSeek-R1-GGUF
版本 6
版本 5
reasoning_content
设置未生效版本 4
reasoning_content
<think>
</think>
标签内生成内容的模型(如 DeepSeek R1)版本 3
版本 2
版本 1
ttl
字段)lms load --ttl <seconds>