文档

API 参考

LLMPredictionConfigInput

字段

maxTokens (可选) : number | false

最多预测的标记数量。如果设置为 false,模型将预测任意数量的标记。

当预测因达到此限制而停止时,预测统计信息中的 stopReason 将设置为 maxPredictedTokensReached

temperature (可选) : number

预测模型的温度参数。值越高,预测越随机;值越低,预测越确定。值应介于 0 和 1 之间。

stopStrings (可选) : Array<string>

一个字符串数组。如果模型生成了其中一个字符串,预测将停止。

当预测因达到此限制而停止时,预测统计信息中的 stopReason 将设置为 stopStringFound

toolCallStopStrings (可选) : Array<string>

一个字符串数组。如果模型生成了其中一个字符串,预测将停止,并且 stopReason 将设置为 toolCalls

contextOverflowPolicy (可选) : LLMContextOverflowPolicy

生成标记长度超出上下文窗口大小时的行为。允许的值为

  • stopAtLimit: 当生成标记长度超出上下文窗口大小时停止预测。如果生成因达到此限制而停止,预测统计信息中的 stopReason 将设置为 contextLengthReached
  • truncateMiddle: 保留系统提示和第一个用户消息,截断中间部分。
  • rollingWindow: 维护一个滚动窗口并截断旧消息。

structured (可选) : ZodType<TStructuredOutputType> | LLMStructuredPredictionSetting

配置模型以输出遵循使用 Zod 定义的特定模式的结构化 JSON 数据。

当您提供 Zod 模式时,模型将被指示生成符合该模式的 JSON,而不是自由形式的文本。

这对于从模型响应中提取特定数据点或当您需要以可由您的应用程序直接使用的格式输出时特别有用。

topKSampling (可选) : number

通过将考虑范围限制在前 K 个最有可能的下一个标记来控制标记采样多样性。

例如,如果设置为 40,则只有概率最高的 40 个标记将被考虑用于下一个标记选择。较低的值(例如 20)将使输出更集中和保守,而较高的值(例如 100)则允许更具创造性和多样性的输出。

典型值范围为 20 到 100。

repeatPenalty (可选) : number | false

对重复标记施加惩罚,以防止模型陷入重复模式。

值为 1.0 表示没有惩罚。大于 1.0 的值会增加惩罚。例如,1.2 会将以前使用的标记的概率降低 20%。这对于防止模型重复短语或陷入循环特别有用。

设置为 false 可完全禁用惩罚。

minPSampling (可选) : number | false

设置一个标记必须满足的最小概率阈值,才能被考虑用于生成。

例如,如果设置为 0.05,任何概率低于 5% 的标记都将被排除在考虑之外。这有助于过滤掉不太可能或不相关的标记,从而可能提高输出质量。

值应介于 0 和 1 之间。设置为 false 可禁用此过滤器。

topPSampling (可选) : number | false

通过仅考虑累积概率达到指定阈值的标记来实现核心采样。

例如,如果设置为 0.9,模型将只考虑那些累积概率之和达到 90% 的最可能的标记。这通过根据其概率分布动态调整考虑的标记数量来帮助平衡多样性和质量。

值应介于 0 和 1 之间。设置为 false 可禁用核心采样。

xtcProbability (可选) : number | false

控制 XTC(排除顶部选择)采样技术在生成过程中应用的频率。

XTC 采样可以通过偶尔过滤掉常见标记来提高创造力并减少陈词滥调。例如,如果设置为 0.3,则在生成每个标记时有 30% 的几率应用 XTC 采样。

值应介于 0 和 1 之间。设置为 false 可完全禁用 XTC。

xtcThreshold (可选) : number | false

定义 XTC(排除顶部选择)采样技术的较低概率阈值。

当 XTC 采样激活时(根据 xtcProbability),算法会识别概率介于此阈值和 0.5 之间的标记,然后删除所有这些标记,除了概率最低的一个。这有助于在生成中引入更多多样化和意想不到的标记。

仅当 xtcProbability 启用时才生效。

cpuThreads (可选) : number

指定用于模型推理的 CPU 线程数。

较高的值可以提高多核系统的性能,但可能会与其他进程竞争。例如,在 8 核系统上,4-6 的值可以提供良好的性能,同时为其他任务保留资源。

如果未指定,系统将根据可用硬件使用默认值。

draftModel (可选) : string

用于推测解码的草稿模型。推测解码是一种通过将主模型与较小的草稿模型配对来大幅提高生成速度(对于较大模型可达 3 倍)的技术。

有关更多信息,请参阅此处:https://lm-studio.cn/docs/advanced/speculative-decoding

您无需自行加载草稿模型。只需在此处指定其模型键即可。

本页的源代码可在 GitHub 上获取