文档

API 参考

LLMPredictionConfigInput

字段

maxTokens (可选) : number | false

最多预测的 token 数量。如果设置为 false,模型将预测任意数量的 token。

当预测因此限制而停止时,预测统计信息中的 stopReason 将被设置为 maxPredictedTokensReached

temperature (可选) : number

预测模型的温度参数。较高的值会使预测更随机,而较低的值会使预测更确定。该值应介于 0 到 1 之间。

stopStrings (可选) : Array<string>

字符串数组。如果模型生成了其中一个字符串,预测将停止。

当预测因此限制而停止时,预测统计信息中的 stopReason 将被设置为 stopStringFound

toolCallStopStrings (可选) : Array<string>

字符串数组。如果模型生成了其中一个字符串,预测将停止,并且 stopReason 将设置为 toolCalls

contextOverflowPolicy (可选) : LLMContextOverflowPolicy

当生成的 token 长度超过上下文窗口大小时的行为。允许的值有:

  • stopAtLimit:当生成的 token 长度超过上下文窗口大小时停止预测。如果因此限制而停止生成,预测统计信息中的 stopReason 将被设置为 contextLengthReached
  • truncateMiddle:保留系统提示和第一个用户消息,截断中间部分。
  • rollingWindow:维护一个滚动窗口并截断过去的 сообщения。

structured (可选) : ZodType<TStructuredOutputType> | LLMStructuredPredictionSetting

配置模型以输出遵循使用 Zod 定义的特定模式的结构化 JSON 数据。

当您提供 Zod 模式时,模型将被指示生成符合该模式的 JSON,而不是自由形式的文本。

这对于从模型响应中提取特定数据点或当您需要输出可以直接被您的应用程序使用的格式时特别有用。

topKSampling (可选) : number

通过将考虑范围限制在前 K 个最有可能的下一个 token 来控制 token 采样多样性。

例如,如果设置为 40,则只有概率最高的 40 个 token 将被考虑用于下一个 token 选择。较低的值(例如 20)将使输出更集中和保守,而较高的值(例如 100)则允许更多创造性和多样化的输出。

典型值范围为 20 到 100。

repeatPenalty (可选) : number | false

对重复的 token 施加惩罚,以防止模型陷入重复模式。

值为 1.0 表示没有惩罚。大于 1.0 的值会增加惩罚。例如,1.2 会将先前使用的 token 的概率降低 20%。这对于防止模型重复短语或陷入循环特别有用。

设置为 false 可完全禁用惩罚。

minPSampling (可选) : number | false

设置 token 必须满足的最小概率阈值才能被考虑用于生成。

例如,如果设置为 0.05,则任何概率低于 5% 的 token 都将被排除在外。这有助于过滤掉不太可能或不相关的 token,从而可能提高输出质量。

值应介于 0 到 1 之间。设置为 false 可禁用此过滤器。

topPSampling (可选) : number | false

通过仅考虑累积概率达到指定阈值的 token 来实现核心采样。

例如,如果设置为 0.9,模型将仅考虑累积概率达到 90% 的最有可能的 token。这有助于通过根据其概率分布动态调整考虑的 token 数量来平衡多样性和质量。

值应介于 0 到 1 之间。设置为 false 可禁用核心采样。

xtcProbability (可选) : number | false

控制 XTC(排除热门选择)采样技术在生成过程中应用的频率。

XTC 采样可以通过偶尔过滤掉常见 token 来提高创造力并减少陈词滥调。例如,如果设置为 0.3,则在生成每个 token 时,有 30% 的几率应用 XTC 采样。

值应介于 0 到 1 之间。设置为 false 可完全禁用 XTC。

xtcThreshold (可选) : number | false

定义 XTC(排除热门选择)采样技术的较低概率阈值。

当 XTC 采样被激活(基于 xtcProbability)时,该算法会识别概率介于此阈值和 0.5 之间的 token,然后移除所有此类 token,除了概率最低的一个。这有助于在生成中引入更多样化和意想不到的 token。

仅当 xtcProbability 启用时才生效。

cpuThreads (可选) : number

指定分配给模型推理的 CPU 线程数。

较高的值可以提高多核系统的性能,但可能会与其他进程竞争。例如,在 8 核系统上,4-6 的值可以提供良好的性能,同时为其他任务留下资源。

如果未指定,系统将根据可用硬件使用默认值。

draftModel (可选) : string

用于推测解码的草稿模型。推测解码是一种技术,通过将主模型与较小的草稿模型配对,可以大大提高生成速度(对于较大模型可达 3 倍)。

有关更多信息,请参阅此处:https://lm-studio.cn/docs/advanced/speculative-decoding

您无需自行加载草稿模型。只需在此处指定其模型键即可。

此页面的源代码可在 GitHub 上找到