LM Studio 0.3.9

2025-01-30

undefined

可选在一段时间后自动卸载未使用的 API 模型

LM Studio 0.3.9 包含全新的 Idle TTL(空闲生存时间)功能、对 Hugging Face 存储库中嵌套文件夹的支持,以及一个实验性 API,用于在聊天补全响应的单独字段中接收 reasoning_content(推理内容)。

0.3.9 的早期版本在流式传输 DeepSeek R1 聊天补全响应时存在一个错误。请更新到最新版本(Build 5)以修复此问题。

通过应用内更新或从 https://lm-studio.cn/download 升级。

Idle TTL 与自动驱逐

使用场景:假设你正在使用 ZedClineContinue.dev 等应用,与由 LM Studio 提供服务的 LLM 进行交互。这些应用利用 JIT(即时)技术在你第一次使用时按需加载模型。

问题:当你没有主动使用某个模型时,你可能不希望它一直占用内存。

解决方案:为通过 API 请求加载的模型设置 TTL。每当模型接收到请求时,空闲计时器都会重置,因此在你使用时它不会消失。如果模型没有在处理任何任务,则被视为处于空闲状态。当空闲 TTL 过期时,模型将自动从内存中卸载。

你可以在请求负载中以秒为单位设置 TTL,或者在命令行中使用 lms load --ttl <秒数>

在文档文章中了解更多信息:TTL 与自动驱逐

在聊天补全响应中分离 reasoning_content

undefined

对于 DeepSeek R1,在单独的字段中获取推理内容

DeepSeek R1 模型在 <think> </think> 标签内生成内容。这些内容是模型的“推理”过程。在聊天补全响应中,你现在可以按照 DeepSeek API 的模式,在名为 reasoning_content 的单独字段中接收此内容。

这适用于流式和非流式补全。你可以在“应用设置 > 开发者”中开启此功能。该功能目前处于实验阶段。

注意:根据 DeepSeek 的文档,你不应在下一次请求中将推理内容传回给模型。

LM 运行时自动更新

LM Studio 支持多种变体的 llama.cpp 引擎(纯 CPU、CUDA、Vulkan、ROCm、Metal)以及 Apple MLX 引擎。这些引擎会频繁接收更新,尤其是在发布新模型时。

为了减少手动更新多个组件的需求,我们引入了运行时的自动更新。此功能默认开启,但你可以在“应用设置”中将其关闭。

运行时更新后,你将看到一条显示版本说明的通知。你也可以在运行时选项卡中自行管理:Windows/Linux 上按 Ctrl + Shift + R,macOS 上按 Cmd + Shift + R

undefined

LM 运行时将自动更新到最新版本。你可以在设置中关闭此功能

支持 Hugging Face 存储库中的嵌套文件夹

这是一项期待已久的功能:你现在可以从 Hugging Face 存储库的嵌套文件夹中下载模型。如果你喜欢的模型发布者在子文件夹中组织模型,你现在可以直接在 LM Studio 中下载它们。

这使得下载像 https://hugging-face.cn/unsloth/DeepSeek-R1-GGUF 这样的模型变得非常简单。同样适用于 lms get <hugging face url>


# Warning: this is a very large model
lms get https://hugging-face.cn/unsloth/DeepSeek-R1-GGUF

0.3.9 - 完整更新日志

版本 6

  • 修复了在包含图像的聊天中使用纯文本模型时出现的 "Cannot read properties of undefined" 错误
  • 修复了 Windows 上的路径解析问题,该问题导致某些机器上的 LM 运行时运行异常
    • 修复 CUDA 模型加载崩溃问题:"llm_engine_cuda.node. 系统无法访问该文件"
    • 修复 ROCm 模型生成内容乱码的问题
  • 修复了在旧版本应用创建的聊天中不显示 RAG 消息的错误
  • 修复了输入法 (IME) 错误:现在按下回车键时,除非完成组字,否则不会发送消息

版本 5

  • 修复了流式传输 DeepSeek R1 聊天补全响应时未遵循 reasoning_content 设置的 API 错误

版本 4

  • 新增实验性 API:在聊天补全响应(流式和非流式)的单独字段中发送 reasoning_content
    • 适用于在 <think> </think> 标签内生成内容的模型(如 DeepSeek R1)
    • 在“应用设置 > 开发者”中开启

版本 3

  • 新增:添加了一个聊天外观选项,用于自动展开新添加的推理 (Thinking) UI 模块
  • 新增:当应用发出系统资源不足的错误通知时,显示护栏配置的快速入口
  • 修复了一个错误:如果删除了非默认的模型目录,新模型将无法被索引
  • 修复了硬件检测中的一个错误:在使用 Vulkan 后端时,多 GPU 设置中偶尔会错误地过滤掉 GPU
  • 修复了模型加载 UI 中的一个错误:在没有 Flash Attention 的情况下,F32 缓存类型未被识别为 llama.cpp Metal 运行时的有效配置

版本 2

  • 新增:支持从 Hugging Face 存储库的嵌套文件夹中下载模型
  • 改进了对直接使用 Hugging Face URL 进行搜索的支持
  • 新增:自动更新选定的运行时扩展包(你可以在设置中关闭此功能)
  • 新增:增加了使用 LM Studio 的 Hugging Face 代理的选项。这可以帮助难以直接访问 Hugging Face 的用户
  • 新增:针对 MLX 模型的 KV 缓存量化(需要 mlx-engine/0.3.0)
  • “我的模型”选项卡更新:模型名称更整洁,侧边栏增加了模型类型分类
    • 可在“应用设置 > 常规”中切换回显示完整文件名
    • 如需查看原始模型元数据(以前是 (i) 按钮),请右键单击模型名称并选择“查看原始元数据 (View Raw Metadata)”
  • 修复了在采样设置中清除 Top K 会触发错误的 Bug

版本 1

  • 新增:TTL —— 可选在一段时间后自动卸载未使用的 API 模型(请求负载中的 ttl 字段)
  • 新增:自动驱逐 (Auto-Evict) —— 在加载新模型之前,可选自动卸载先前加载的 API 模型(在“应用设置”中控制)
  • 修复了模型推理块内的等式有时会在块下方产生空白区域的错误
  • 修复了浮窗通知中文字无法滚动的情况
  • 修复了取消勾选并再次勾选结构化输出 JSON 会导致架构 (schema) 值消失的错误
  • 修复了生成时自动滚动有时不允许向上滚动的错误
  • [开发者] 将日志选项移至“开发者日志”面板标题栏(••• 菜单)
  • 修复了聊天外观字体大小选项无法缩放推理 (Thoughts) 块中文字的问题

更多内容