文档

代理流程

文本嵌入

分词

管理模型

模型信息

API 参考

聊天补全

使用 llm.respond(...) 为聊天对话生成补全。

快速示例:生成聊天回复

以下代码片段展示了如何将 AI 的回复流式传输到快速聊天提示。

import { LMStudioClient } from "@lmstudio/sdk";
const client = new LMStudioClient();

const model = await client.llm.model();

for await (const fragment of model.respond("What is the meaning of life?")) {
  process.stdout.write(fragment.content);
}

获取模型

首先,你需要获取模型句柄。这可以使用 `llm` 命名空间中的 `model` 方法来完成。例如,以下是如何使用 Qwen2.5 7B Instruct。

import { LMStudioClient } from "@lmstudio/sdk";
const client = new LMStudioClient();

const model = await client.llm.model("qwen2.5-7b-instruct");

还有其他获取模型句柄的方法。请参阅 内存中管理模型 以获取更多信息。

管理聊天上下文

模型的输入被称为“上下文”。从概念上讲,模型接收多轮对话作为输入,并被要求预测助手的在该对话中的回复。

import { Chat } from "@lmstudio/sdk";

// Create a chat object from an array of messages.
const chat = Chat.from([
  { role: "system", content: "You are a resident AI philosopher." },
  { role: "user", content: "What is the meaning of life?" },
]);

请参阅 处理聊天 以获取有关管理聊天上下文的更多信息。

生成回复

你可以使用 `respond()` 方法,要求 LLM 预测聊天上下文中接下来的回复。

// The `chat` object is created in the previous step.
const prediction = model.respond(chat);

for await (const { content } of prediction) {
  process.stdout.write(content);
}

console.info(); // Write a new line to prevent text from being overwritten by your shell.

自定义推理参数

你可以将推理参数作为第二个参数传递给 `.respond()`。

const prediction = model.respond(chat, {
  temperature: 0.6,
  maxTokens: 50,
});

请参阅 配置模型 以获取有关可以配置的内容的更多信息。

你还可以打印预测元数据,例如用于生成的模型、生成的令牌数量、首个令牌时间以及停止原因。

// If you have already iterated through the prediction fragments,
// doing this will not result in extra waiting.
const result = await prediction.result();

console.info("Model used:", result.modelInfo.displayName);
console.info("Predicted tokens:", result.stats.predictedTokensCount);
console.info("Time to first token (seconds):", result.stats.timeToFirstTokenSec);
console.info("Stop reason:", result.stats.stopReason);

示例:多轮聊天

待办事项:可能需要在此处进行润色

import { Chat, LMStudioClient } from "@lmstudio/sdk";
import { createInterface } from "readline/promises";

const rl = createInterface({ input: process.stdin, output: process.stdout });
const client = new LMStudioClient();
const model = await client.llm.model();
const chat = Chat.empty();

while (true) {
  const input = await rl.question("You: ");
  // Append the user input to the chat
  chat.append("user", input);

  const prediction = model.respond(chat, {
    // When the model finish the entire message, push it to the chat
    onMessage: (message) => chat.append(message),
  });
  process.stdout.write("Bot: ");
  for await (const { content } of prediction) {
    process.stdout.write(content);
  }
  process.stdout.write("\n");
}