LM Studio 0.3.9

可选:在一定时间后自动卸载未使用的 API 模型
LM Studio 0.3.9 包含了新的 Idle TTL 功能、支持 Hugging Face 仓库中的嵌套文件夹,以及一个实验性 API,用于在聊天补全响应的独立字段中接收 reasoning_content。
0.3.9 的早期版本在流式传输 DeepSeek R1 聊天补全响应时存在 bug。请更新到最新版本 (build 5) 以修复此问题。
通过应用内更新进行升级,或前往 https://lm-studio.cn/download 下载。
Idle TTL 和自动驱逐
用例:想象你正在使用像 Zed、Cline 或 Continue.dev 这样的应用来与 LM Studio 提供的 LLM 进行交互。这些应用利用 JIT(即时加载)在你第一次使用时按需加载模型。
问题:当你没有在积极使用某个模型时,你可能不希望它一直留在内存中。
解决方案:为通过 API 请求加载的模型设置 TTL(生存时间)。每当模型收到请求时,空闲计时器都会重置,因此它不会在你使用时消失。如果模型没有在处理任何任务,则被视为处于空闲状态。当 Idle TTL 到期时,模型将自动从内存中卸载。
你可以在请求负载中以秒为单位设置 TTL,或者在命令行中使用 lms load --ttl <seconds>。
在文档文章中阅读更多内容:TTL 和自动驱逐。
在聊天补全响应中分离 reasoning_content

对于 DeepSeek R1,在独立字段中获取推理内容
DeepSeek R1 模型在 <think> </think> 标签内生成内容。此内容是模型的“推理”过程。在聊天补全响应中,你现在可以按照 DeepSeek API 的模式在名为 reasoning_content 的独立字段中接收此内容。
这适用于流式和非流式补全。你可以在“应用设置 > 开发者”中开启此功能。此功能目前处于实验阶段。
注意:根据 DeepSeek 的文档,你不应在下一次请求中将推理内容传回给模型。
LM 运行时自动更新
LM Studio 支持多种变体的 llama.cpp 引擎(仅 CPU、CUDA、Vulkan、ROCm、Metal)以及 Apple MLX 引擎。这些引擎会频繁收到更新,尤其是在新模型发布时。
为了减少手动更新多个组件的需求,我们引入了运行时的自动更新。默认情况下此功能是开启的,但你可以在应用设置中关闭它。
运行时更新后,你将看到一条显示发行说明的通知。你也可以在运行时选项卡中自行管理:Windows/Linux 上为 Ctrl + Shift + R,macOS 上为 Cmd + Shift + R。

LM 运行时将自动更新到最新版本。你可以在设置中关闭此功能
支持 Hugging Face 仓库中的嵌套文件夹
一个呼声很高的功能:你现在可以从 Hugging Face 仓库的嵌套文件夹中下载模型。如果你喜欢的模型发布者将他们的模型组织在子文件夹中,你现在可以直接在 LM Studio 中下载它们。
这使得下载像 https://hugging-face.cn/unsloth/DeepSeek-R1-GGUF 这样的模型变得很容易。同时也适用于 lms get <hugging face url>。
# Warning: this is a very large model
lms get https://hugging-face.cn/unsloth/DeepSeek-R1-GGUF0.3.9 - 完整变更日志
版本 6
- 修复了在包含图像的聊天中使用仅文本模型时出现的 "Cannot read properties of undefined" 错误
- 修复了 Windows 上的路径解析问题,该问题导致某些机器上的 LM 运行时运行异常
- 修复了 CUDA 模型加载崩溃问题,“llm_engine_cuda.node。系统无法访问该文件”
- 修复了 ROCm 生成内容乱码的问题
- 修复了在使用旧版本应用创建的聊天中不显示 RAG 消息的 bug
- 修复了一个输入法 (IME) bug:现在按下 Enter 键时,除非输入完成,否则不会发送消息
版本 5
- 修复了一个 API bug:在流式传输 DeepSeek R1 聊天补全响应时未遵循
reasoning_content设置
版本 4
- 新增实验性 API:在聊天补全响应(流式和非流式)的独立字段中发送
reasoning_content- 适用于在
<think></think>标签内生成内容的模型(如 DeepSeek R1) - 在“应用设置 > 开发者”中开启
- 适用于在
版本 3
- 新增:添加了一个聊天外观选项,可自动展开新添加的推理 (Thinking) UI 块
- 新增:当应用弹出系统资源不足的错误通知时,显示访问护栏 (guardrail) 配置的快捷入口
- 修复了如果删除了非默认模型目录,新模型将无法被索引的 bug
- 修复了硬件检测中的一个 bug,该 bug 在使用 Vulkan 后端时,有时会错误地过滤掉多 GPU 设置中的 GPU
- 修复了模型加载 UI 中的一个 bug,该 bug 导致没有 flash attention 的 F32 缓存类型无法被识别为 llama.cpp Metal 运行时的有效配置
版本 2
- 新增:增加了对从 Hugging Face 仓库嵌套文件夹下载模型的支持
- 改进了直接使用 Hugging Face URL 进行搜索的支持
- 新增:自动更新选定的运行时扩展包(可以在设置中关闭)
- 新增:增加了一个使用 LM Studio 的 Hugging Face 代理的选项。这可以帮助难以直接访问 Hugging Face 的用户
- 新增:MLX 模型的 KV 缓存量化(需要 mlx-engine/0.3.0)
- “我的模型”选项卡刷新:模型名称更整洁,侧边栏提供了模型类型分类
- 可以在“应用设置 > 常规”中切换回显示完整文件名
- 要查看原始模型元数据(以前是 (i) 按钮),请右键单击模型名称并选择“查看原始元数据”
- 修复了清除采样设置中的 Top K 会触发错误的 bug
版本 1
- 新增:TTL —— 可选在一定时间后自动卸载未使用的 API 模型(请求负载中的
ttl字段)- 命令行使用:
lms load --ttl <seconds> - API 参考:https://lm-studio.cn/docs/api/ttl-and-auto-evict
- 命令行使用:
- 新增:自动驱逐 (Auto-Evict) —— 可选在加载新模型前自动卸载先前加载的 API 模型(在应用设置中控制)
- 修复了模型推理块内部的等式有时会在块下方产生空白区域的 bug
- 修复了弹出通知 (toast notifications) 中的文本无法滚动的情况
- 修复了取消选中并重新选中“结构化输出 JSON”会导致架构值消失的 bug
- 修复了生成时自动滚动有时不允许向上滚动的 bug
- [开发者] 将日志选项移至开发者日志面板标题(••• 菜单)
- 修复了聊天外观字体大小选项无法缩放推理 (Thoughts) 块中文字的问题
更多内容
- 下载适用于 macOS、Windows 或 Linux 的最新 LM Studio 应用程序。
- 如果您想在工作单位或组织中使用 LM Studio,请与我们联系:LM Studio 商用
- 要参与讨论和社区交流,请加入我们的 Discord 服务器。
- 刚开始接触 LM Studio?前往查看相关文档:文档:LM Studio 入门指南。