LM Studio 0.3.9

可选在一段时间后自动卸载未使用的 API 模型
LM Studio 0.3.9 包含全新的 Idle TTL(空闲生存时间)功能、对 Hugging Face 存储库中嵌套文件夹的支持,以及一个实验性 API,用于在聊天补全响应的单独字段中接收 reasoning_content(推理内容)。
0.3.9 的早期版本在流式传输 DeepSeek R1 聊天补全响应时存在一个错误。请更新到最新版本(Build 5)以修复此问题。
使用场景:假设你正在使用 Zed、Cline 或 Continue.dev 等应用,与由 LM Studio 提供服务的 LLM 进行交互。这些应用利用 JIT(即时)技术在你第一次使用时按需加载模型。
问题:当你没有主动使用某个模型时,你可能不希望它一直占用内存。
解决方案:为通过 API 请求加载的模型设置 TTL。每当模型接收到请求时,空闲计时器都会重置,因此在你使用时它不会消失。如果模型没有在处理任何任务,则被视为处于空闲状态。当空闲 TTL 过期时,模型将自动从内存中卸载。
你可以在请求负载中以秒为单位设置 TTL,或者在命令行中使用 lms load --ttl <秒数>。
在文档文章中了解更多信息:TTL 与自动驱逐。
reasoning_content
对于 DeepSeek R1,在单独的字段中获取推理内容
DeepSeek R1 模型在 <think> </think> 标签内生成内容。这些内容是模型的“推理”过程。在聊天补全响应中,你现在可以按照 DeepSeek API 的模式,在名为 reasoning_content 的单独字段中接收此内容。
这适用于流式和非流式补全。你可以在“应用设置 > 开发者”中开启此功能。该功能目前处于实验阶段。
注意:根据 DeepSeek 的文档,你不应在下一次请求中将推理内容传回给模型。
LM Studio 支持多种变体的 llama.cpp 引擎(纯 CPU、CUDA、Vulkan、ROCm、Metal)以及 Apple MLX 引擎。这些引擎会频繁接收更新,尤其是在发布新模型时。
为了减少手动更新多个组件的需求,我们引入了运行时的自动更新。此功能默认开启,但你可以在“应用设置”中将其关闭。
运行时更新后,你将看到一条显示版本说明的通知。你也可以在运行时选项卡中自行管理:Windows/Linux 上按 Ctrl + Shift + R,macOS 上按 Cmd + Shift + R。

LM 运行时将自动更新到最新版本。你可以在设置中关闭此功能
这是一项期待已久的功能:你现在可以从 Hugging Face 存储库的嵌套文件夹中下载模型。如果你喜欢的模型发布者在子文件夹中组织模型,你现在可以直接在 LM Studio 中下载它们。
这使得下载像 https://hugging-face.cn/unsloth/DeepSeek-R1-GGUF 这样的模型变得非常简单。同样适用于 lms get <hugging face url>。
# Warning: this is a very large model lms get https://hugging-face.cn/unsloth/DeepSeek-R1-GGUF
版本 6
版本 5
reasoning_content 设置的 API 错误版本 4
reasoning_content<think> </think> 标签内生成内容的模型(如 DeepSeek R1)版本 3
版本 2
版本 1
ttl 字段)lms load --ttl <秒数>