LM Studio 0.3.5
•
2024-10-22
LM Studio 0.3.5 引入了无头模式、按需加载模型以及对 mlx-engine
的更新,以支持 Pixtral(MistralAI 的视觉增强型 LLM)。
👾 我们正在纽约招聘一名 TypeScript SDK 工程师,负责构建用于设备端 AI 的应用程序和 SDK。
在这个版本中,我们添加了一系列面向开发者的功能,旨在使使用 LM Studio 作为您的后台 LLM 提供程序更加便捷。我们实现了无头模式、按需加载模型、服务器自动启动以及一个新的 CLI 命令,用于从终端下载模型。这些功能对于驱动本地 Web 应用、代码编辑器或 Web 浏览器扩展程序等非常有用。
通常,要使用 LM Studio 的功能,您必须保持应用程序打开状态。考虑到 LM Studio 的图形用户界面,这听起来很明显。但对于某些开发工作流程(主要是那些仅将 LM Studio 作为服务器使用的流程),保持应用程序运行会导致不必要地消耗视频内存等资源。此外,记住在重新启动后启动应用程序并手动启用服务器也很麻烦。现在不用了!进入:无头模式👻。
无头模式或“本地 LLM 服务”使您可以利用 LM Studio 的技术(通过 llama.cpp
或 Apple MLX
完成、聊天完成、嵌入、结构化输出)作为本地服务器来驱动您的应用程序。
启用“启用本地 LLM 服务”后,LM Studio 的进程将在机器启动时无需 GUI 运行。
启用 LLM 服务器在机器登录时启动
要切换到在后台使用 LM Studio,您可以将其最小化到托盘。这将隐藏停靠图标并释放图形用户界面占用的资源。
在 Windows 上将 LM Studio 发送到后台运行
在 macOS 上将 LM Studio 发送到后台运行
如果您打开服务器,它将在下次应用程序启动时自动启动——无论是由您启动,还是在服务模式下启动时启动。关闭服务器也是如此。
要确保服务器已开启,请运行以下命令
相反,要确保服务器已关闭,请运行
0.3.5 版本之前:如果您想通过 LM Studio 使用模型,您必须先自行加载它:可以通过 UI 或通过 lms load
(或通过 lmstudio-js)加载。
0.3.5 版本之后:要使用模型,只需向其发送推理请求即可。如果模型尚未加载,它将在您的请求返回之前加载。这意味着第一个请求可能需要几秒钟才能完成加载操作,但后续调用应该像往常一样快速。
使用按需加载模型,您可能想知道如何配置加载设置,例如上下文长度、GPU 卸载百分比、Flash Attention 等。这可以使用 LM Studio 的 每个模型的默认设置 功能来解决。
使用每个模型的设置,您可以预先确定软件在加载给定模型时默认使用的加载参数。
GET /v1/models
行为无 JIT 加载(0.3.5 版本之前的默认值):仅返回已加载到内存中的模型
使用 JIT 加载:返回所有可以加载的本地模型
如果您以前使用过 LM Studio,请在“开发者”选项卡中切换此开关以启用 Just-In-Time 模型加载。新安装默认启用此功能。
按需加载模型
lms get
LM Studio 的 CLI,lms
,增加了一个新命令,使您可以直接从终端下载模型。
lms
会在您安装新版本的 LM Studio 时自动更新。lms get {author}/{repo}
要下载Meta的Llama 3.2 1B,请运行:
我们引入以下表示量化的符号:@{quantization}
获取q4_k_m
量化版本
获取q8_0
量化版本
您可以提供明确的Hugging Face URL来下载特定模型。
量化符号在这里也适用!
这将下载该模型的q8_0
量化版本。
在 LM Studio 0.3.4 中,我们引入了对 Apple MLX 的支持。阅读更多信息此处。在 0.3.5 中,我们更新了底层的 MLX 引擎(它是开源的)并添加了对 MistralAI 的 Pixtral 的支持!
这得益于采用Blaizzy/mlx-vlm
版本0.0.15
。
您可以通过模型搜索(⌘ + ⇧ + M
)或使用lms get
命令下载 Pixtral,如下所示:
如果您的 Mac 内存大于 16GB,最好是 32GB 以上,可以尝试一下。
lms load
和 lms server start
命令不再需要启动 GUI。lms
添加到 PATH。0.0.15
,支持 Qwen2VL。4.45.0
。