文档

使用 LLM 进行预测

智能体流程

文本嵌入

分词

管理模型

模型信息

LLMPredictionConfigInput

TODO:这是什么

字段

maxTokens (可选) : number | false

最多预测的 token 数量。如果设置为 false,模型将预测任意数量的 token。

当预测因达到此限制而停止时,预测统计中的 stopReason 将设置为 maxPredictedTokensReached

temperature (可选) : number

预测模型的 temperature 参数。值越高,预测结果越随机;值越低,预测结果越确定。值应介于 0 和 1 之间。

stopStrings (可选) : Array<string>

一个字符串数组。如果模型生成其中一个字符串,预测将停止。

当预测因达到此限制而停止时,预测统计中的 stopReason 将设置为 stopStringFound

toolCallStopStrings (可选) : Array<string>

一个字符串数组。如果模型生成其中一个字符串,预测将停止,其 stopReason 将设置为 toolCalls

contextOverflowPolicy (可选) : LLMContextOverflowPolicy

当生成的 token 长度超过上下文窗口大小时的行为。允许的值包括:

  • stopAtLimit: 当生成的 token 长度超过上下文窗口大小时停止预测。如果生成因达到此限制而停止,预测统计中的 stopReason 将设置为 contextLengthReached
  • truncateMiddle: 保留系统提示和第一个用户消息,截断中间部分。
  • rollingWindow: 维护一个滚动窗口并截断旧消息。

structured (可选) : ZodType<TStructuredOutputType> | LLMStructuredPredictionSetting

配置模型输出遵循使用 Zod 定义的特定模式的结构化 JSON 数据。

当您提供 Zod 模式时,模型将根据该模式生成 JSON,而不是自由格式的文本。

这对于从模型响应中提取特定数据点,或者当您需要可由应用程序直接使用的输出格式时特别有用。

topKSampling (可选) : number

通过将考虑范围限制在 K 个最有可能的下一个 token 来控制 token 采样的多样性。

例如,如果设置为 40,则只有概率最高的 40 个 token 会被考虑用于下一个 token 的选择。较低的值(例如 20)将使输出更集中和保守,而较高的值(例如 100)则允许更具创意和多样性的输出。

典型值范围为 20 到 100。

repeatPenalty (可选) : number | false

对重复的 token 应用惩罚,以防止模型陷入重复模式。

值为 1.0 表示没有惩罚。大于 1.0 的值会增加惩罚。例如,1.2 会将先前使用的 token 的概率降低 20%。这对于防止模型重复短语或陷入循环特别有用。

设置为 false 以完全禁用惩罚。

minPSampling (可选) : number | false

设置 token 必须满足的最小概率阈值才能被考虑用于生成。

例如,如果设置为 0.05,则任何概率低于 5% 的 token 都将被排除在考虑范围之外。这有助于过滤掉不太可能或不相关的 token,从而可能提高输出质量。

值应介于 0 和 1 之间。设置为 false 以禁用此筛选器。

topPSampling (可选) : number | false

通过仅考虑累积概率达到指定阈值的 token 来实现核采样(nucleus sampling)。

例如,如果设置为 0.9,模型将仅考虑累积概率达到 90% 的最可能的 token。这有助于通过根据 token 的概率分布动态调整考虑的 token 数量来平衡多样性和质量。

值应介于 0 和 1 之间。设置为 false 以禁用核采样。

xtcProbability (可选) : number | false

控制在生成过程中应用 XTC(排除顶部选择)采样技术的频率。

XTC 采样可以通过偶尔过滤掉常见 token 来提高创造力并减少陈词滥调。例如,如果设置为 0.3,则在生成每个 token 时有 30% 的机会应用 XTC 采样。

值应介于 0 和 1 之间。设置为 false 以完全禁用 XTC。

xtcThreshold (可选) : number | false

定义 XTC(排除顶部选择)采样技术的下限概率阈值。

当 XTC 采样被激活(基于 xtcProbability)时,算法会识别概率在此阈值和 0.5 之间的 token,然后移除所有此类 token,但概率最低的 token 除外。这有助于在生成中引入更多样化和意想不到的 token。

仅当 xtcProbability 启用时生效。

cpuThreads (可选) : number

指定用于模型推理的 CPU 线程数。

较高的值可以提高多核系统上的性能,但可能与其他进程竞争资源。例如,在 8 核系统上,4-6 的值可以提供良好的性能,同时为其他任务保留资源。

如果未指定,系统将根据可用硬件使用默认值。

draftModel (可选) : string

用于推测解码的草稿模型。推测解码是一种技术,通过将主模型与较小的草稿模型配对,可以显著提高生成速度(对于大型模型可达 3 倍)。

更多信息请参见此处: https://lm-studio.cn/docs/advanced/speculative-decoding

您无需自行加载草稿模型。只需在此处指定其模型键即可。