文档

入门指南

Agentic 流程

文本嵌入

分词

模型管理

模型信息

聊天完成

使用 llm.respond(...) 为聊天对话生成补全内容。

快速示例:生成聊天回复

以下代码片段展示了如何获取 AI 对快速聊天提示的回复。

import lmstudio as lms
model = lms.llm()
print(model.respond("What is the meaning of life?"))

流式传输聊天回复

以下代码片段展示了如何流式传输 AI 对聊天提示的回复,并在接收到文本片段时立即显示(而不是等待整个回复生成完毕后再显示)。

import lmstudio as lms
model = lms.llm()

for fragment in model.respond_stream("What is the meaning of life?"):
    print(fragment.content, end="", flush=True)
print() # Advance to a new line at the end of the response

获取模型

首先,你需要获取一个模型句柄。这可以使用顶层的 llm 便捷 API,或者在使用作用域资源 API 时,使用 llm 命名空间中的 model 方法来完成。例如,以下是如何使用 Qwen2.5 7B Instruct。

import lmstudio as lms
model = lms.llm("qwen2.5-7b-instruct")

还有其他方法可以获取模型句柄。请参阅内存中管理模型以获取更多信息。

管理聊天上下文

模型的输入被称为“上下文”。从概念上讲,模型接收一个多轮对话作为输入,并被要求预测助手的回复。

import lmstudio as lms

# Create a chat with an initial system prompt.
chat = lms.Chat("You are a resident AI philosopher.")

# Build the chat context by adding messages of relevant types.
chat.add_user_message("What is the meaning of life?")
# ... continued in next example

有关管理聊天上下文的更多信息,请参阅聊天操作

生成回复

你可以使用 respond() 方法,让 LLM 预测聊天上下文中的下一个回复。

# The `chat` object is created in the previous step.
result = model.respond(chat)

print(result)

自定义推理参数

你可以通过 .respond() 方法中的 config 关键字参数传入推理参数。

prediction_stream = model.respond_stream(chat, config={
    "temperature": 0.6,
    "maxTokens": 50,
})

有关可以配置的内容的更多信息,请参阅配置模型

你还可以打印预测元数据,例如用于生成的模型、生成的 token 数量、首个 token 的时间以及停止原因。

# After iterating through the prediction fragments,
# the overall prediction result may be obtained from the stream
result = prediction_stream.result()

print("Model used:", result.model_info.display_name)
print("Predicted tokens:", result.stats.predicted_tokens_count)
print("Time to first token (seconds):", result.stats.time_to_first_token_sec)
print("Stop reason:", result.stats.stop_reason)

示例:多轮聊天

import lmstudio as lms

model = lms.llm()
chat = lms.Chat("You are a task focused AI assistant")

while True:
    try:
        user_input = input("You (leave blank to exit): ")
    except EOFError:
        print()
        break
    if not user_input:
        break
    chat.add_user_message(user_input)
    prediction_stream = model.respond_stream(
        chat,
        on_message=chat.append,
    )
    print("Bot: ", end="", flush=True)
    for fragment in prediction_stream:
        print(fragment.content, end="", flush=True)
    print()