LM Studio 0.3.5

2024-10-22

LM Studio 0.3.5 引入了无头模式、按需模型加载,并更新了 mlx-engine 以支持 Pixtral (MistralAI 的视觉 LLM)。


👾 我们正在纽约招聘一名 TypeScript SDK 工程师,以构建用于设备端 AI 的应用和 SDK

获取最新 LM Studio

  • macOS: 从此处下载 .dmg 文件。
  • Windows: 从此处下载 .exe 文件。
  • Linux: 从此处下载 .AppImage 文件。

将 LM Studio 作为本地 LLM 后台服务器

在此版本中,我们添加了面向开发者的功能组合,旨在使 LM Studio 作为后台 LLM 提供商的使用更加符合人体工程学。我们实现了无头模式、按需模型加载、服务器自动启动以及新的 CLI 命令,以便从终端下载模型。这些功能对于驱动本地 Web 应用程序、代码编辑器或 Web 浏览器扩展等非常有用。

无头模式

通常,要使用 LM Studio 的功能,您必须保持应用程序打开。当考虑到 LM Studio 的图形用户界面时,这听起来很明显。但对于某些开发者工作流程,主要是那些仅将 LM Studio 用作服务器的工作流程,保持应用程序运行会导致不必要的资源消耗,例如视频内存。此外,记住在重启后启动应用程序并手动启用服务器也很麻烦。现在不用担心了!进入:无头模式 👻。

无头模式,或“本地 LLM 服务”,使您能够利用 LM Studio 的技术(补全、聊天补全、嵌入、通过 llama.cppApple MLX 的结构化输出)作为为您的应用程序提供支持的本地服务器。

一旦您开启“启用本地 LLM 服务”,LM Studio 进程将在机器启动时在没有 GUI 的情况下运行。

undefined

启用 LLM 服务器在机器登录时启动

最小化到托盘

要切换到在后台使用 LM Studio,您可以将其最小化到托盘。这将隐藏 Dock 图标并释放图形用户界面占用的资源。

在 Windows 上最小化到托盘

undefined

发送 LM Studio 在 Windows 上后台运行

在 Mac 上最小化到托盘

undefined

发送 LM Studio 在 macOS 上后台运行

记住上次服务器状态

如果您打开服务器,它将在下次应用程序启动时自动启动 —— 无论是您启动的,还是在服务模式下启动时。关闭服务器也是如此。

为确保服务器已开启,运行以下命令

# Start the server
lms server start

相反,要确保服务器已关闭,运行

# Stop the server
lms server stop

按需模型加载

v0.3.5 之前:如果您想通过 LM Studio 使用模型,您必须先自行加载它:通过 UI 或通过 lms load(或通过 lmstudio-js)。

v0.3.5 之后:要使用模型,只需向其发送推理请求。如果模型尚未加载,它将在您的请求返回之前加载。这意味着第一个请求可能需要几秒钟才能完成加载操作,但随后的调用应该像往常一样快速。

将按需加载与每个模型设置结合使用

使用按需模型加载,您可能想知道如何配置加载设置,例如上下文长度、GPU 卸载百分比、Flash Attention 等。这可以使用 LM Studio 的每个模型默认设置功能来解决。

使用每个模型设置,您可以预先确定软件在加载给定模型时默认使用的加载参数。

🛠️ API 变更:GET /v1/models 行为

没有 JIT 加载(pre-0.3.5 默认):仅返回已加载到内存中的模型

使用 JIT 加载:返回所有可以加载的本地模型

如何开启 JIT 模型加载

如果您之前使用过 LM Studio,请通过在开发者选项卡中拨动此开关来开启即时模型加载。新安装默认开启此功能。

undefined

按需加载模型

lms get

LM Studio 的 CLI,lms,获得了一个新命令,使您能够直接从终端下载模型。

当您安装新版本的 LM Studio 时,lms 会自动更新。

下载模型:lms get {author}/{repo}

要下载 Meta 的 Llama 3.2 1B,请运行

lms get bartowski/llama-3.2-1b-instruct-gguf

下载特定量化版本

我们引入了以下表示量化的符号:@{quantization}

获取 q4_k_m 量化版本

lms get lmstudio-community/llama-3.2-1b-instruct-gguf@q4_k_m

获取 q8_0 量化版本

lms get lmstudio-community/llama-3.2-1b-instruct-gguf@q8_0

提供明确的 huggingface.co URL

您提供明确的 Hugging Face URL 来下载特定模型

lms get https://hugging-face.cn/lmstudio-community/granite-3.0-2b-instruct-GGUF

量化符号也适用于此处!

lms get https://hugging-face.cn/lmstudio-community/granite-3.0-2b-instruct-GGUF@q8_0

这将下载此模型的 q8_0 量化版本。

通过 Apple MLX 支持 Pixtral

在 LM Studio 0.3.4 中,我们引入了对 Apple MLX 的支持。在此处阅读相关信息此处。在 0.3.5 中,我们更新了底层 MLX 引擎(它是开源的),并增加了对 MistralAI 的 Pixtral 的支持!

这得益于采用了 Blaizzy/mlx-vlm 版本 0.0.15

您可以通过模型搜索 (⌘ + ⇧ + M) 或使用 lms get 如下方式下载 Pixtral

lms get mlx-community/pixtral-12b-4bit

如果您的 Mac 具有 16GB+ RAM,最好是 32GB+,请试用一下。

Bug 修复


LM Studio 0.3.5 - 完整更新日志

  • 以服务(无头)方式运行 LM Studio
    • lms load, lms server start 不再需要启动 GUI
    • 能够在机器启动时运行
  • 服务器启动/停止按钮将记住上次设置
    • 当 LM Studio 作为服务运行时,这非常有用
  • 模型搜索的改进
    • Hugging Face 搜索现在自动进行,无需 Cmd / Ctrl + Enter
  • OpenAI 端点的即时模型加载
  • 用于切换 Mission Control 全屏/模态模式的按钮
  • 更新了基于 llama.cpp 的 JSON 响应生成;现在支持更复杂的 JSON 模式
  • 托盘菜单选项,用于将应用最小化到托盘,复制服务器基本 URL
  • 用于在 Linux 上 onboarding 期间将 lms 添加到 PATH 的复选框
  • [Mac][MLX Vision] 将 mlx-vlm 版本提升到 0.0.15,支持 Qwen2VL
  • [Mac][MLX Engine] 更新 Transformers 到 4.45.0
  • [UI] 将聊天外观控件移动到顶部栏
  • [UI] 调整每个消息操作按钮的大小
  • 本地化

更多