图像输入 | LM Studio 文档 - LM Studio 应用程序

所需 Python SDK 版本：1.1.0

某些模型，被称为 VLM（视觉语言模型），可以接受图像作为输入。您可以使用 .respond() 方法将图像传递给模型。

先决条件：获取 VLM（视觉语言模型）

如果您还没有 VLM，可以使用以下命令下载一个模型，例如 qwen2-vl-2b-instruct

lms get qwen2-vl-2b-instruct

1. 实例化模型

连接到 LM Studio 并获取您想使用的 VLM（视觉语言模型）句柄。

import lmstudio as lms

model = lms.llm("qwen2-vl-2b-instruct")

2. 准备图像

使用 prepare_image() 函数或 files 命名空间方法来获取图像句柄，该句柄随后可以传递给模型。

import lmstudio as lms

image_path = "/path/to/image.jpg" # Replace with the path to your image
image_handle = lms.prepare_image(image_path)

如果您只有图像的原始数据，可以直接将原始数据作为字节对象提供，而无需先将其写入磁盘。由于此功能，不支持二进制文件系统路径（因为它们将被视为格式错误的图像数据，而不是文件系统路径）。

二进制 IO 对象也可以作为本地文件输入接受。

LM Studio 服务器支持 JPEG、PNG 和 WebP 图像格式。

3. 在 `.respond()` 中将图像传递给模型

通过在 .respond() 方法中将图像传递给模型来生成预测。

import lmstudio as lms

image_path = "/path/to/image.jpg" # Replace with the path to your image
image_handle = lms.prepare_image(image_path)
model = lms.llm("qwen2-vl-2b-instruct")
chat = lms.Chat()
chat.add_user_message("Describe this image please", images=[image_handle])
prediction = model.respond(chat)

基础知识图像输入

先决条件：获取 VLM（视觉语言模型）

1. 实例化模型

2. 准备图像

3. 在 .respond() 中将图像传递给模型

基础知识
图像输入

3. 在 `.respond()` 中将图像传递给模型