文档

入门

代理流程

文本嵌入

分词

管理模型

模型信息

图像输入

所需 Python SDK 版本: 1.1.0

某些模型,即 VLM(视觉-语言模型),可以接受图像作为输入。您可以使用 .respond() 方法将图像传递给模型。

前提条件:获取 VLM(视觉-语言模型)

如果您还没有 VLM,可以使用以下命令下载像 qwen2-vl-2b-instruct 这样的模型

lms get qwen2-vl-2b-instruct

1. 实例化模型

连接到 LM Studio 并获取您想使用的 VLM(视觉-语言模型)的句柄。

import lmstudio as lms
model = lms.llm("qwen2-vl-2b-instruct")

2. 准备图像

使用 prepare_image() 函数或 files 命名空间方法来获取图像的句柄,该句柄随后可以传递给模型。

import lmstudio as lms
image_path = "/path/to/image.jpg" # Replace with the path to your image
image_handle = lms.prepare_image(image_path)

如果您只有图像的原始数据,可以直接以字节对象的形式提供原始数据,无需先将其写入磁盘。由于此功能,不支持二进制文件系统路径(因为它们将被视为格式错误的图像数据,而不是文件系统路径)。

二进制 IO 对象也接受作为本地文件输入。

LM Studio 服务器支持 JPEG、PNG 和 WebP 图像格式。

3. 在 .respond() 中将图像传递给模型

通过在 .respond() 方法中将图像传递给模型来生成预测。

import lmstudio as lms
image_path = "/path/to/image.jpg" # Replace with the path to your image
image_handle = lms.prepare_image(image_path)
model = lms.llm("qwen2-vl-2b-instruct")
chat = lms.Chat()
chat.add_user_message("Describe this image please", images=[image_handle])
prediction = model.respond(chat)