文档
聊天完成
使用 llm.respond(...)
为聊天对话生成补全内容。
以下代码片段展示了如何获取 AI 对快速聊天提示的回复。
import lmstudio as lms
model = lms.llm()
print(model.respond("What is the meaning of life?"))
以下代码片段展示了如何流式传输 AI 对聊天提示的回复,并在接收到文本片段时立即显示(而不是等待整个回复生成完毕后再显示)。
import lmstudio as lms
model = lms.llm()
for fragment in model.respond_stream("What is the meaning of life?"):
print(fragment.content, end="", flush=True)
print() # Advance to a new line at the end of the response
首先,你需要获取一个模型句柄。这可以使用顶层的 llm
便捷 API,或者在使用作用域资源 API 时,使用 llm
命名空间中的 model
方法来完成。例如,以下是如何使用 Qwen2.5 7B Instruct。
import lmstudio as lms
model = lms.llm("qwen2.5-7b-instruct")
还有其他方法可以获取模型句柄。请参阅内存中管理模型以获取更多信息。
模型的输入被称为“上下文”。从概念上讲,模型接收一个多轮对话作为输入,并被要求预测助手的回复。
import lmstudio as lms
# Create a chat with an initial system prompt.
chat = lms.Chat("You are a resident AI philosopher.")
# Build the chat context by adding messages of relevant types.
chat.add_user_message("What is the meaning of life?")
# ... continued in next example
有关管理聊天上下文的更多信息,请参阅聊天操作。
你可以使用 respond()
方法,让 LLM 预测聊天上下文中的下一个回复。
# The `chat` object is created in the previous step.
result = model.respond(chat)
print(result)
你可以通过 .respond()
方法中的 config
关键字参数传入推理参数。
prediction_stream = model.respond_stream(chat, config={
"temperature": 0.6,
"maxTokens": 50,
})
有关可以配置的内容的更多信息,请参阅配置模型。
你还可以打印预测元数据,例如用于生成的模型、生成的 token 数量、首个 token 的时间以及停止原因。
# After iterating through the prediction fragments,
# the overall prediction result may be obtained from the stream
result = prediction_stream.result()
print("Model used:", result.model_info.display_name)
print("Predicted tokens:", result.stats.predicted_tokens_count)
print("Time to first token (seconds):", result.stats.time_to_first_token_sec)
print("Stop reason:", result.stats.stop_reason)
import lmstudio as lms
model = lms.llm()
chat = lms.Chat("You are a task focused AI assistant")
while True:
try:
user_input = input("You (leave blank to exit): ")
except EOFError:
print()
break
if not user_input:
break
chat.add_user_message(user_input)
prediction_stream = model.respond_stream(
chat,
on_message=chat.append,
)
print("Bot: ", end="", flush=True)
for fragment in prediction_stream:
print(fragment.content, end="", flush=True)
print()