在本地模型中使用 OpenAI 的 Responses API

2025-10-06

LM Studio 0.3.29 已作为稳定版本发布。请在应用内更新或下载最新版本:lmstudio.ai/download


新功能:兼容 OpenAI 的 /v1/responses 接口

此版本通过 LM Studio REST 服务器增加了对 OpenAI /v1/responses API 的支持。

  • 状态保持交互 —— 只需传入 previous_response_id,即可继续交互,无需自行管理消息历史。
  • 自定义函数工具调用 —— 允许模型调用您提供的函数工具,类似于 v1/chat/completions 中的功能。
  • 远程 MCP —— 允许模型调用远程 MCP 服务器的工具,需在设置中明确开启。
  • 推理支持 —— 解析推理输出,并可通过 reasoning: { effort: "low" | "medium" | "high" } 控制 openai/gpt-oss-20b 模型的推理力度。
  • 流式或同步 —— 使用 stream: true 可在模型生成时接收 SSE 事件,或省略该参数以获取单个 JSON 响应。
  • 更多信息请访问 https://lm-studio.cn/docs/app/api/endpoints/openai

要使用 REST API 服务器端点,请确保您的 LM Studio 服务器已在界面中启动(开发者 → 状态:运行中)

undefined

在界面中启动服务器

或通过 lms 命令行工具启动

 % lms server start
Success! Server is now running on port 1234

状态保持交互

  • 请求示例

    curl http://127.0.0.1:1234/v1/responses \
      -H "Content-Type: application/json" \
      -d '{
        "model": "openai/gpt-oss-20b",
        "input": "Provide a prime number less than 50",
        "reasoning": { "effort": "low" }
      }'
    
  • 响应(已缩减)

    { "id": "resp_123", "output": [{"type":"message", ...}] }
    
  • previous_response_id 设置为上述 ID,即可继续进行交互

    curl http://127.0.0.1:1234/v1/responses \
    -H "Content-Type: application/json" \
    -d '{
        "model": "openai/gpt-oss-20b",
        "input": "Multiply it by 2",
        "previous_response_id": "resp_123"
    }'
    

流式传输

请求示例

curl http://127.0.0.1:1234/v1/responses \
  -H "Content-Type: application/json" \
    -d '{
      "model": "openai/gpt-oss-20b",
      "input": "Hello",
      "stream": true
    }'

当模型生成输出时,您将收到诸如 response.createdresponse.output_text.deltaresponse.completed 等事件。详情请参阅文档了解关于流式事件的更多信息。

远程 MCP

开启选项以允许使用远程 MCP 服务器(开发者 → 设置 → 允许 MCP → 远程)

undefined

允许远程 MCP 服务器

请求示例

curl http://127.0.0.1:1234/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{
    "model": "openai/gpt-oss-20b",
    "tools": [{
      "type": "mcp",
      "server_label": "tiktoken",
      "server_url": "https://gitmcp.io/openai/tiktoken",
      "allowed_tools": ["fetch_tiktoken_documentation"]
    }],
    "input": "What is the first sentence of the tiktoken documentation?"
  }'

输出将包括助手回复前的工具发现和工具调用信息。请参阅文档查看完整模式和示例。

命令行:列出所有模型变体

快速检查多变体模型的所有可用变体

lms ls --variants

输出示例(仅限变体)

google/gemma-3-12b (2 variants)
 * google/gemma-3-12b@q3_k_l   12B   gemma3   7.33 GB
   google/gemma-3-12b@4bit     12B   gemma3   8.07 GB

0.3.29 - 发布说明

版本 1

  • 新增 OpenAI 兼容端点:/v1/responses
    • 通过将上一次响应的 ID 作为输入传入,创建状态保持交互 —— 无需自行管理消息历史
    • 支持自定义工具调用
    • 支持推理解析,并可为 gpt-oss 等模型设置推理力度("low"|"medium"|"high")
    • 支持同步和流式输出(stream=true
    • 更多详细信息请参阅 https://lm-studio.cn/docs/app/api/endpoints/openai
  • 新增 lms ls 命令选项:lms ls --variants 可列出多变体模型的所有变体

资源