LM Studio 0.3.5

2024-10-22

LM Studio 0.3.5 引入了无头模式、按需加载模型以及对 mlx-engine 的更新,以支持 Pixtral(MistralAI 的视觉增强型 LLM)。


👾 我们正在纽约招聘一名 TypeScript SDK 工程师,负责构建用于设备端 AI 的应用程序和 SDK。

获取最新版 LM Studio

  • macOS:从此处下载 .dmg 文件:此处
  • Windows:从此处下载 .exe 文件:此处
  • Linux:从此处下载 .AppImage 文件:此处

LM Studio 作为您的本地 LLM 后台服务器

在这个版本中,我们添加了一系列面向开发者的功能,旨在使使用 LM Studio 作为您的后台 LLM 提供程序更加便捷。我们实现了无头模式、按需加载模型、服务器自动启动以及一个新的 CLI 命令,用于从终端下载模型。这些功能对于驱动本地 Web 应用、代码编辑器或 Web 浏览器扩展程序等非常有用。

无头模式

通常,要使用 LM Studio 的功能,您必须保持应用程序打开状态。考虑到 LM Studio 的图形用户界面,这听起来很明显。但对于某些开发工作流程(主要是那些仅将 LM Studio 作为服务器使用的流程),保持应用程序运行会导致不必要地消耗视频内存等资源。此外,记住在重新启动后启动应用程序并手动启用服务器也很麻烦。现在不用了!进入:无头模式👻。

无头模式或“本地 LLM 服务”使您可以利用 LM Studio 的技术(通过 llama.cppApple MLX 完成、聊天完成、嵌入、结构化输出)作为本地服务器来驱动您的应用程序。

启用“启用本地 LLM 服务”后,LM Studio 的进程将在机器启动时无需 GUI 运行。

undefined

启用 LLM 服务器在机器登录时启动

最小化到托盘

要切换到在后台使用 LM Studio,您可以将其最小化到托盘。这将隐藏停靠图标并释放图形用户界面占用的资源。

在 Windows 上最小化到托盘

undefined

在 Windows 上将 LM Studio 发送到后台运行

在 Mac 上最小化到托盘

undefined

在 macOS 上将 LM Studio 发送到后台运行

记住上次服务器状态

如果您打开服务器,它将在下次应用程序启动时自动启动——无论是由您启动,还是在服务模式下启动时启动。关闭服务器也是如此。

要确保服务器已开启,请运行以下命令

# Start the server
lms server start

相反,要确保服务器已关闭,请运行

# Stop the server
lms server stop

按需加载模型

0.3.5 版本之前:如果您想通过 LM Studio 使用模型,您必须先自行加载它:可以通过 UI 或通过 lms load(或通过 lmstudio-js)加载。

0.3.5 版本之后:要使用模型,只需向其发送推理请求即可。如果模型尚未加载,它将在您的请求返回之前加载。这意味着第一个请求可能需要几秒钟才能完成加载操作,但后续调用应该像往常一样快速。

将按需加载与每个模型设置结合使用

使用按需加载模型,您可能想知道如何配置加载设置,例如上下文长度、GPU 卸载百分比、Flash Attention 等。这可以使用 LM Studio 的 每个模型的默认设置 功能来解决。

使用每个模型的设置,您可以预先确定软件在加载给定模型时默认使用的加载参数。

🛠️ API 变更:GET /v1/models 行为

无 JIT 加载(0.3.5 版本之前的默认值):仅返回已加载到内存中的模型

使用 JIT 加载:返回所有可以加载的本地模型

如何启用 JIT 模型加载

如果您以前使用过 LM Studio,请在“开发者”选项卡中切换此开关以启用 Just-In-Time 模型加载。新安装默认启用此功能。

undefined

按需加载模型

lms get

LM Studio 的 CLI,lms,增加了一个新命令,使您可以直接从终端下载模型。

lms会在您安装新版本的 LM Studio 时自动更新。

下载模型:lms get {author}/{repo}

要下载Meta的Llama 3.2 1B,请运行:

lms get bartowski/llama-3.2-1b-instruct-gguf

下载特定量化版本

我们引入以下表示量化的符号:@{quantization}

获取q4_k_m量化版本

lms get lmstudio-community/llama-3.2-1b-instruct-gguf@q4_k_m

获取q8_0量化版本

lms get lmstudio-community/llama-3.2-1b-instruct-gguf@q8_0

提供明确的huggingface.co URL

您可以提供明确的Hugging Face URL来下载特定模型。

lms get https://hugging-face.cn/lmstudio-community/granite-3.0-2b-instruct-GGUF

量化符号在这里也适用!

lms get https://hugging-face.cn/lmstudio-community/granite-3.0-2b-instruct-GGUF@q8_0

这将下载该模型的q8_0量化版本。

Pixtral 支持与 Apple MLX

在 LM Studio 0.3.4 中,我们引入了对 Apple MLX 的支持。阅读更多信息此处。在 0.3.5 中,我们更新了底层的 MLX 引擎(它是开源的)并添加了对 MistralAI 的 Pixtral 的支持!

这得益于采用Blaizzy/mlx-vlm 版本0.0.15

您可以通过模型搜索(⌘ + ⇧ + M)或使用lms get命令下载 Pixtral,如下所示:

lms get mlx-community/pixtral-12b-4bit

如果您的 Mac 内存大于 16GB,最好是 32GB 以上,可以尝试一下。

错误修复


LM Studio 0.3.5 -完整更新日志

  • 以服务模式(无头)运行 LM Studio
    • lms loadlms server start 命令不再需要启动 GUI。
    • 支持开机启动。
  • 服务器启动/停止按钮会记住上次的设置。
    • 这在 LM Studio 以服务模式运行时非常有用。
  • 模型搜索改进
    • 现在 Hugging Face 搜索会自动进行,无需使用 Cmd/Ctrl + Enter。
  • 针对 OpenAI 端点实现即时模型加载。
  • 用于切换 Mission Control 全屏/模态模式的按钮。
  • 更新基于 llama.cpp 的 JSON 响应生成;现在支持更复杂的 JSON 模式。
  • 托盘菜单选项,用于最小化应用到托盘和复制服务器基本 URL。
  • 在 Linux 上的初始设置过程中,添加一个复选框以将lms添加到 PATH。
  • [Mac][MLX 视觉] 将 mlx-vlm 版本升级到0.0.15,支持 Qwen2VL。
  • [Mac][MLX 引擎] 将 Transformers 更新到4.45.0
  • [UI] 将聊天外观控制移动到顶部栏。
  • [UI] 调整每个消息操作按钮的大小。
  • 本地化

更多内容