文档
link(连接)
runtime 运行时
link(连接)
runtime 运行时
lms load 命令用于将模型加载到内存中。你可以选择性地设置上下文长度、GPU 卸载和 TTL 等参数。本指南还介绍了如何使用 lms unload 卸载模型。
[path] (可选) : 字符串
要加载的模型路径。如果不提供,系统将提示你选择一个。
--ttl (可选) : 数值
如果提供此参数,模型在闲置指定秒数后将自动卸载。
--gpu (可选) : 字符串
卸载到 GPU 的程度。取值范围:0-1,off(关闭),max(最大)。
--context-length (可选) : 数值
生成文本时作为上下文考虑的 token 数量。
--identifier (可选) : 字符串
为已加载的模型分配的标识符,用于 API 调用引用。
--estimate-only (可选) : 布尔值
打印资源(内存)预估值并退出,不执行模型加载。
运行以下命令将模型加载到内存中:
lms load <model_key>
你可以先运行 lms ls 列出本地已下载的模型,从而获取 model_key。
你可以选择为已加载的模型分配一个自定义标识符,以便在 API 中引用。
lms load <model_key> --identifier "my-custom-identifier"
之后,你就可以在后续命令和 API 调用(model 参数)中通过 my_model 这个标识符来引用该模型。
加载模型时,可以使用 --context-length 标志设置上下文长度。
lms load <model_key> --context-length 4096
这决定了模型在生成文本时将考虑多少 token 作为上下文。
使用 --gpu 标志来控制 GPU 内存占用。
lms load <model_key> --gpu 0.5 # Offload 50% of layers to GPU lms load <model_key> --gpu max # Offload all layers to GPU lms load <model_key> --gpu off # Disable GPU offloading
如果不指定,LM Studio 将自动确定最佳的 GPU 使用策略。
使用 --ttl 标志(单位:秒)设置自动卸载定时器。
lms load <model_key> --ttl 3600 # Unload after 1 hour of inactivity
使用 --estimate-only 在加载模型前预览内存需求。
lms load --estimate-only <model_key>
其他可选标志(如 --context-length 和 --gpu)也会在预估中得到考虑并体现。预估器会考虑上下文长度、Flash Attention 以及模型是否支持视觉能力等因素。
示例
$ lms load --estimate-only gpt-oss-120b Model: openai/gpt-oss-120b Estimated GPU Memory: 65.68 GB Estimated Total Memory: 65.68 GB Estimate: This model may be loaded based on your resource guardrails settings.
使用 lms unload 从内存中移除模型。
[model_key] (可选) : 字符串
要卸载的模型键值。如果不提供,系统将提示你选择一个。
--all (可选) : 标记
卸载所有当前已加载的模型。
--host (可选) : 字符串
要连接的远程 LM Studio 实例的主机地址。
lms unload <model_key>
如果未提供模型键值,系统将提示你从当前已加载的模型中进行选择。
lms unload --all
lms unload <model_key> --host <host>
lms load 支持 --host 标志,以连接到远程 LM Studio 实例。
lms load <model_key> --host <host>
为此,远程 LM Studio 实例必须正在运行并可从本地机器访问,例如,在同一子网中可访问。
本文档源代码可在 GitHub 上获取。
本页内容
参数标志
加载模型
设置自定义标识符
设置上下文长度
设置 GPU 卸载
设置 TTL
在不加载模型的情况下预估资源占用
卸载模型
参数标志
卸载特定模型
卸载所有模型
从远程 LM Studio 实例卸载
在远程 LM Studio 实例上操作