LLMPredictionConfigInput | LM Studio 文档

TODO：这是什么

字段

maxTokens （可选） : number | false

最多预测的 token 数量。如果设置为 false，模型将预测任意数量的 token。

当预测因达到此限制而停止时，预测统计中的 stopReason 将设置为 maxPredictedTokensReached。

temperature （可选） : number

预测模型的 temperature 参数。值越高，预测结果越随机；值越低，预测结果越确定。值应介于 0 和 1 之间。

stopStrings （可选） : Array<string>

一个字符串数组。如果模型生成其中一个字符串，预测将停止。

当预测因达到此限制而停止时，预测统计中的 stopReason 将设置为 stopStringFound。

toolCallStopStrings （可选） : Array<string>

一个字符串数组。如果模型生成其中一个字符串，预测将停止，其 stopReason 将设置为 toolCalls。

contextOverflowPolicy （可选） : LLMContextOverflowPolicy

当生成的 token 长度超过上下文窗口大小时的行为。允许的值包括：

stopAtLimit: 当生成的 token 长度超过上下文窗口大小时停止预测。如果生成因达到此限制而停止，预测统计中的 stopReason 将设置为 contextLengthReached
truncateMiddle: 保留系统提示和第一个用户消息，截断中间部分。
rollingWindow: 维护一个滚动窗口并截断旧消息。

structured （可选） : ZodType<TStructuredOutputType> | LLMStructuredPredictionSetting

配置模型输出遵循使用 Zod 定义的特定模式的结构化 JSON 数据。

当您提供 Zod 模式时，模型将根据该模式生成 JSON，而不是自由格式的文本。

这对于从模型响应中提取特定数据点，或者当您需要可由应用程序直接使用的输出格式时特别有用。

topKSampling （可选） : number

通过将考虑范围限制在 K 个最有可能的下一个 token 来控制 token 采样的多样性。

例如，如果设置为 40，则只有概率最高的 40 个 token 会被考虑用于下一个 token 的选择。较低的值（例如 20）将使输出更集中和保守，而较高的值（例如 100）则允许更具创意和多样性的输出。

典型值范围为 20 到 100。

repeatPenalty （可选） : number | false

对重复的 token 应用惩罚，以防止模型陷入重复模式。

值为 1.0 表示没有惩罚。大于 1.0 的值会增加惩罚。例如，1.2 会将先前使用的 token 的概率降低 20%。这对于防止模型重复短语或陷入循环特别有用。

设置为 false 以完全禁用惩罚。

minPSampling （可选） : number | false

设置 token 必须满足的最小概率阈值才能被考虑用于生成。

例如，如果设置为 0.05，则任何概率低于 5% 的 token 都将被排除在考虑范围之外。这有助于过滤掉不太可能或不相关的 token，从而可能提高输出质量。

值应介于 0 和 1 之间。设置为 false 以禁用此筛选器。

topPSampling （可选） : number | false

通过仅考虑累积概率达到指定阈值的 token 来实现核采样（nucleus sampling）。

例如，如果设置为 0.9，模型将仅考虑累积概率达到 90% 的最可能的 token。这有助于通过根据 token 的概率分布动态调整考虑的 token 数量来平衡多样性和质量。

值应介于 0 和 1 之间。设置为 false 以禁用核采样。

xtcProbability （可选） : number | false

控制在生成过程中应用 XTC（排除顶部选择）采样技术的频率。

XTC 采样可以通过偶尔过滤掉常见 token 来提高创造力并减少陈词滥调。例如，如果设置为 0.3，则在生成每个 token 时有 30% 的机会应用 XTC 采样。

值应介于 0 和 1 之间。设置为 false 以完全禁用 XTC。

xtcThreshold （可选） : number | false

定义 XTC（排除顶部选择）采样技术的下限概率阈值。

当 XTC 采样被激活（基于 xtcProbability）时，算法会识别概率在此阈值和 0.5 之间的 token，然后移除所有此类 token，但概率最低的 token 除外。这有助于在生成中引入更多样化和意想不到的 token。

仅当 xtcProbability 启用时生效。

cpuThreads （可选） : number

指定用于模型推理的 CPU 线程数。

较高的值可以提高多核系统上的性能，但可能与其他进程竞争资源。例如，在 8 核系统上，4-6 的值可以提供良好的性能，同时为其他任务保留资源。

如果未指定，系统将根据可用硬件使用默认值。

draftModel （可选） : string

用于推测解码的草稿模型。推测解码是一种技术，通过将主模型与较小的草稿模型配对，可以显著提高生成速度（对于大型模型可达 3 倍）。

更多信息请参见此处: https://lm-studio.cn/docs/advanced/speculative-decoding

您无需自行加载草稿模型。只需在此处指定其模型键即可。