文档

本地模型

lms load

加载或卸载模型,设置上下文长度、GPU 卸载、TTL,或在不加载模型的情况下预估内存占用。

lms load 命令用于将模型加载到内存中。你可以选择性地设置上下文长度、GPU 卸载和 TTL 等参数。本指南还介绍了如何使用 lms unload 卸载模型。

参数标志

[path] (可选) : 字符串

要加载的模型路径。如果不提供,系统将提示你选择一个。

--ttl (可选) : 数值

如果提供此参数,模型在闲置指定秒数后将自动卸载。

--gpu (可选) : 字符串

卸载到 GPU 的程度。取值范围:0-1,off(关闭),max(最大)。

--context-length (可选) : 数值

生成文本时作为上下文考虑的 token 数量。

--identifier (可选) : 字符串

为已加载的模型分配的标识符,用于 API 调用引用。

--estimate-only (可选) : 布尔值

打印资源(内存)预估值并退出,不执行模型加载。

加载模型

运行以下命令将模型加载到内存中:

lms load <model_key>

你可以先运行 lms ls 列出本地已下载的模型,从而获取 model_key

设置自定义标识符

你可以选择为已加载的模型分配一个自定义标识符,以便在 API 中引用。

lms load <model_key> --identifier "my-custom-identifier"

之后,你就可以在后续命令和 API 调用(model 参数)中通过 my_model 这个标识符来引用该模型。

设置上下文长度

加载模型时,可以使用 --context-length 标志设置上下文长度。

lms load <model_key> --context-length 4096

这决定了模型在生成文本时将考虑多少 token 作为上下文。

设置 GPU 卸载

使用 --gpu 标志来控制 GPU 内存占用。

lms load <model_key> --gpu 0.5    # Offload 50% of layers to GPU
lms load <model_key> --gpu max    # Offload all layers to GPU
lms load <model_key> --gpu off    # Disable GPU offloading

如果不指定,LM Studio 将自动确定最佳的 GPU 使用策略。

设置 TTL

使用 --ttl 标志(单位:秒)设置自动卸载定时器。

lms load <model_key> --ttl 3600   # Unload after 1 hour of inactivity

在不加载模型的情况下预估资源占用

使用 --estimate-only 在加载模型前预览内存需求。

lms load --estimate-only <model_key>

其他可选标志(如 --context-length--gpu)也会在预估中得到考虑并体现。预估器会考虑上下文长度、Flash Attention 以及模型是否支持视觉能力等因素。

示例

$ lms load --estimate-only gpt-oss-120b
Model: openai/gpt-oss-120b
Estimated GPU Memory:   65.68 GB
Estimated Total Memory: 65.68 GB

Estimate: This model may be loaded based on your resource guardrails settings.

卸载模型

使用 lms unload 从内存中移除模型。

参数标志

[model_key] (可选) : 字符串

要卸载的模型键值。如果不提供,系统将提示你选择一个。

--all (可选) : 标记

卸载所有当前已加载的模型。

--host (可选) : 字符串

要连接的远程 LM Studio 实例的主机地址。

卸载特定模型

lms unload <model_key>

如果未提供模型键值,系统将提示你从当前已加载的模型中进行选择。

卸载所有模型

lms unload --all

从远程 LM Studio 实例卸载

lms unload <model_key> --host <host>

操作远程 LM Studio 实例

lms load 支持 --host 标志,以连接到远程 LM Studio 实例。

lms load <model_key> --host <host>

为此,远程 LM Studio 实例必须正在运行并可从本地机器访问,例如,在同一子网中可访问。

本文档源代码可在 GitHub 上获取。