LM Studio 0.3.27:聊天内查找与搜索所有聊天记录

2025-09-24

LM Studio 0.3.27 现已作为稳定版本发布。请在应用内更新或下载最新版本

在聊天中查找并在所有聊天记录中搜索


新功能:聊天内查找与搜索所有聊天记录

现在,你可以在当前对话中或跨所有对话进行搜索。

  • Cmd/Ctrl+F:在当前对话中查找。支持纯文本、Markdown、代码块,并且还能搜索推理块中的内容。
    • 同样的 Cmd/Ctrl+F 快捷键也适用于大型系统提示词(System Prompt)编辑器(使用 Cmd/Ctrl+E 打开)。
  • Cmd/Ctrl+Shift+F:搜索所有对话。

“聊天内查找”功能会搜索当前聊天中的纯文本、Markdown、代码块和推理块。对于“搜索所有对话”,我们构建了一个内存索引,仅搜索消息内容(不包含推理块和工具调用块)。

欢迎试用并向我们反馈!你也可以在 lmstudio-bug-tracker 上报告错误。


新功能:模型资源估算

在加载模型之前(无论是通过应用内还是使用 lms load),你都有机会调整模型加载参数,例如上下文长度或 GPU 卸载百分比(GPU offload %)。这些参数连同模型大小等因素,会影响加载模型所需的内存。

此前,LM Studio 会考虑 GPU 卸载情况来估算内存使用量,并在你可能耗尽内存时发出警告。

从 0.3.27 版本开始,我们现在还考虑了上下文长度、是否启用 Flash Attention 以及模型是否为视觉模型。这为你提供了更准确的内存需求估算。

undefined

考虑了上下文长度和 GPU 卸载的模型加载内存估算


当你调整上下文长度或 GPU 卸载滑块时,你会看到更新后的内存需求估算值。如果内存可能耗尽,你在加载模型前会看到警告。如果你认为该估算过于保守,你始终可以覆盖保护机制并强制加载模型。

lms load --estimate-only

此功能也已在命令行界面(CLI)中提供。你现在可以对加载模型进行“预演(dry run)”:

lms load --estimate-only <model-name>

不会实际加载模型,但会根据你提供的参数打印出内存需求估算。它将考虑你提供的 --context-length--gpu,如果未提供,则会使用默认值。

结果可能如下所示:

终端
$ lms load --estimate-only gpt-oss-120b 模型: openai/gpt-oss-120b 预计 GPU 内存: 65.68 GB 预计总内存: 65.68 GB 估算: 根据你的资源保护设置,此模型可以被加载。

新功能:在聊天侧边栏中对聊天记录进行排序

你现在可以根据更新日期、创建日期或 Token 数量在侧边栏中对聊天记录进行排序。

undefined

按更新日期、创建日期或 Token 数量对聊天记录进行排序


加入 LM Studio 0.4.0 私测(Private Beta)

我们即将启动 LM Studio 0.4.0 的测试版。它功能丰富,我们非常希望你能提前试用并与我们共同迭代。如果你感兴趣,请点击此处报名。



0.3.27 - 发布说明

版本 4

  • 改进了 VRAM 使用情况的估算,特别是在启用 Flash Attention 的情况下。

版本 3

  • 新增设置项,可控制模型下载开始后是否自动打开下载面板(默认值:false)。
  • 更新了 CLI (lms) 的输出颜色,以便在浅色模式下具有更好的对比度。
  • 修复了有时对话代码块中的复制按钮不显示的问题。

版本 2

  • 新功能:聊天内查找 (Cmd/Ctrl+F) 和搜索所有聊天记录 (Cmd/Ctrl+Shift+F)。
  • 新功能:支持按更新日期、创建日期或 Token 数量对聊天侧边栏进行排序。
  • 模型资源估算现在适用于视觉模型。
  • 在 CLI 中增加了模型资源估算功能。现在你可以运行 lms load --estimate-only <model-name> 在加载前预览模型的预计内存需求。
  • 在使用 lms chat 时,现在可以使用 Ctrl+C 中断正在进行的预测。

版本 1

  • 主模型下载后下载的其他模型量化文件现在将正确地归入该模型目录下。
  • 改进了用于模型加载保护机制的内存使用情况估算。
    • 现在内存估算将考虑所选的上下文长度。
  • lms ps --json 现在报告模型生成状态以及排队的预测请求数量。


资源