文档

使用 LLM 进行预测

Agentic 流程

文本嵌入

分词

管理模型

模型信息

LLMPredictionConfigInput

待办:这是什么

字段

maxTokens (可选) : number | false

最多预测的 token 数量。如果设置为 false,模型将预测任意数量的 token。

当预测因达到此限制而停止时,预测统计信息中的 stopReason 将被设置为 maxPredictedTokensReached

temperature (可选) : number

预测模型的 temperature 参数。较高的值使预测更随机,而较低的值使预测更确定。该值应介于 0 和 1 之间。

stopStrings (可选) : Array<string>

一个字符串数组。如果模型生成其中一个字符串,预测将停止。

当预测因达到此限制而停止时,预测统计信息中的 stopReason 将被设置为 stopStringFound

toolCallStopStrings (可选) : Array<string>

一个字符串数组。如果模型生成其中一个字符串,预测将停止,并且 stopReasontoolCalls

contextOverflowPolicy (可选) : LLMContextOverflowPolicy

当生成的 token 长度超过上下文窗口大小时的行为。允许的值为

  • stopAtLimit:当生成的 token 长度超过上下文窗口大小时停止预测。如果生成因达到此限制而停止,预测统计信息中的 stopReason 将被设置为 contextLengthReached
  • truncateMiddle:保留系统提示和第一条用户消息,截断中间部分。
  • rollingWindow:维护滚动窗口并截断之前的消息。

structured (可选) : ZodType<TStructuredOutputType> | LLMStructuredPredictionSetting

配置模型以输出遵循使用 Zod 定义的特定模式的结构化 JSON 数据。

当您提供 Zod 模式时,模型将被指示生成符合该模式的 JSON,而不是自由格式的文本。

这对于从模型响应中提取特定数据点,或者当您需要应用程序可以直接使用的格式的输出时,特别有用。

topKSampling (可选) : number

通过将考虑范围限制为 K 个最有可能的下一个 token,来控制 token 采样的多样性。

例如,如果设置为 40,则仅考虑概率最高的 40 个 token 用于下一个 token 选择。较低的值(例如,20)将使输出更集中和保守,而较高的值(例如,100)允许更具创造性和多样性的输出。

典型值范围为 20 到 100。

repeatPenalty (可选) : number | false

对重复的 token 应用惩罚,以防止模型陷入重复模式。

值为 1.0 表示没有惩罚。大于 1.0 的值会增加惩罚。例如,1.2 会将先前使用过的 token 的概率降低 20%。这对于防止模型重复短语或陷入循环特别有用。

设置为 false 以完全禁用惩罚。

minPSampling (可选) : number | false

设置 token 必须满足的最小概率阈值才能被考虑用于生成。

例如,如果设置为 0.05,则任何概率小于 5% 的 token 都将被排除在考虑范围之外。这有助于过滤掉不太可能或不相关的 token,从而可能提高输出质量。

值应介于 0 和 1 之间。设置为 false 以禁用此过滤器。

topPSampling (可选) : number | false

通过仅考虑累积概率达到指定阈值的 token 来实现 nucleus 采样。

例如,如果设置为 0.9,模型将仅考虑最有可能的 token,这些 token 的概率总和达到 90%。这通过根据 token 的概率分布动态调整所考虑的 token 数量,帮助在多样性和质量之间取得平衡。

值应介于 0 和 1 之间。设置为 false 以禁用 nucleus 采样。

xtcProbability (可选) : number | false

控制在生成过程中应用 XTC(排除最热门选择)采样技术的频率。

XTC 采样可以通过偶尔过滤掉常见的 token 来提高创造力并减少陈词滥调。例如,如果设置为 0.3,则在生成每个 token 时,有 30% 的几率应用 XTC 采样。

值应介于 0 和 1 之间。设置为 false 以完全禁用 XTC。

xtcThreshold (可选) : number | false

定义 XTC(排除最热门选择)采样技术的较低概率阈值。

当 XTC 采样被激活时(基于 xtcProbability),该算法识别概率介于此阈值和 0.5 之间的 token,然后删除所有此类 token,但概率最低的 token 除外。这有助于在生成中引入更多样化和意想不到的 token。

仅当启用 xtcProbability 时生效。

cpuThreads (可选) : number

指定为模型推理分配的 CPU 线程数。

较高的值可以提高多核系统上的性能,但可能会与其他进程竞争。例如,在 8 核系统上,值 4-6 可能提供良好的性能,同时为其他任务留下资源。

如果未指定,系统将使用基于可用硬件的默认值。

draftModel (可选) : string

用于推测性解码的草稿模型。推测性解码是一种可以通过将主模型与较小的草稿模型配对来大幅提高生成速度(对于较大模型高达 3 倍)的技术。

有关更多信息,请参见此处: https://lm-studio.cn/docs/advanced/speculative-decoding

您无需自行加载草稿模型。只需在此处指定其模型密钥即可。