在本地模型中使用 OpenAI 的 Responses API
LM Studio 0.3.29 已作为稳定版本发布。请在应用内更新或下载最新版本:lmstudio.ai/download。
/v1/responses 接口此版本通过 LM Studio REST 服务器增加了对 OpenAI /v1/responses API 的支持。
previous_response_id,即可继续交互,无需自行管理消息历史。v1/chat/completions 中的功能。reasoning: { effort: "low" | "medium" | "high" } 控制 openai/gpt-oss-20b 模型的推理力度。stream: true 可在模型生成时接收 SSE 事件,或省略该参数以获取单个 JSON 响应。要使用 REST API 服务器端点,请确保您的 LM Studio 服务器已在界面中启动(开发者 → 状态:运行中)

在界面中启动服务器
或通过 lms 命令行工具启动
→ % lms server start Success! Server is now running on port 1234
请求示例
curl http://127.0.0.1:1234/v1/responses \ -H "Content-Type: application/json" \ -d '{ "model": "openai/gpt-oss-20b", "input": "Provide a prime number less than 50", "reasoning": { "effort": "low" } }'
响应(已缩减)
{ "id": "resp_123", "output": [{"type":"message", ...}] }
将 previous_response_id 设置为上述 ID,即可继续进行交互
curl http://127.0.0.1:1234/v1/responses \ -H "Content-Type: application/json" \ -d '{ "model": "openai/gpt-oss-20b", "input": "Multiply it by 2", "previous_response_id": "resp_123" }'
请求示例
curl http://127.0.0.1:1234/v1/responses \ -H "Content-Type: application/json" \ -d '{ "model": "openai/gpt-oss-20b", "input": "Hello", "stream": true }'
当模型生成输出时,您将收到诸如 response.created、response.output_text.delta 和 response.completed 等事件。详情请参阅文档了解关于流式事件的更多信息。
开启选项以允许使用远程 MCP 服务器(开发者 → 设置 → 允许 MCP → 远程)

允许远程 MCP 服务器
请求示例
curl http://127.0.0.1:1234/v1/responses \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $OPENAI_API_KEY" \ -d '{ "model": "openai/gpt-oss-20b", "tools": [{ "type": "mcp", "server_label": "tiktoken", "server_url": "https://gitmcp.io/openai/tiktoken", "allowed_tools": ["fetch_tiktoken_documentation"] }], "input": "What is the first sentence of the tiktoken documentation?" }'
输出将包括助手回复前的工具发现和工具调用信息。请参阅文档查看完整模式和示例。
快速检查多变体模型的所有可用变体
lms ls --variants
输出示例(仅限变体)
google/gemma-3-12b (2 variants) * google/gemma-3-12b@q3_k_l 12B gemma3 7.33 GB google/gemma-3-12b@4bit 12B gemma3 8.07 GB
版本 1
/v1/responsesstream=true)lms ls 命令选项:lms ls --variants 可列出多变体模型的所有变体