文档

Agentic Flows

文本嵌入

分词

模型管理

模型信息

API 参考

图像输入

一些模型,也称为 VLMs (视觉-语言模型),可以接受图像作为输入。您可以使用 .respond() 方法将图像传递给模型。

前提条件:获取 VLM (视觉-语言模型)

如果您还没有 VLM,您可以使用以下命令下载类似 qwen2-vl-2b-instruct 的模型

lms get qwen2-vl-2b-instruct

1. 实例化模型

连接到 LM Studio 并获取您想要使用的 VLM (视觉-语言模型) 的句柄。

import { LMStudioClient } from "@lmstudio/sdk";
const client = new LMStudioClient();

const model = await client.llm.model("qwen2-vl-2b-instruct");

2. 准备图像

使用 client.files.prepareImage() 方法获取您可以传递给模型的图像句柄。

const imagePath = "/path/to/image.jpg"; // Replace with the path to your image
const image = await client.files.prepareImage(imagePath);

如果您只有 base64 字符串格式的图像,则可以改用 client.files.prepareImageBase64() 方法。

const imageBase64 = "Your base64 string here";
const image = await client.files.prepareImageBase64(imageBase64);

我们支持 JPEG、PNG 和 WebP 图像格式。

3. 在 .respond() 中将图像传递给模型

通过在 .respond() 方法中将图像传递给模型来生成预测。

const prediction = model.respond([
  { role: "user", content: "Describe this image please", images: [image] },
]);