文档

使用 LLM 进行预测

Agentic Flows

文本嵌入

分词

管理模型

模型信息

LLMLoadModelConfig

参数

gpu (可选) : GPUSetting

如何将工作分配到您的 GPU。有关更多信息,请参阅 {@link GPUSetting}。

contextLength (可选) : number

上下文长度的大小,以 token 数量计。这将包括提示和响应。一旦超过上下文长度,将使用 {@link LLMPredictionConfigBase#contextOverflowPolicy} 中设置的值来确定行为。

有关更多信息,请参阅 {@link LLMContextOverflowPolicy}。

ropeFrequencyBase (可选) : number

旋转位置嵌入 (RoPE) 的自定义基频。

此高级参数调整位置信息如何在模型的表示中嵌入。增加此值可以通过修改模型处理位置相关信息的方式来提高在高上下文长度下的性能。

ropeFrequencyScale (可选) : number

RoPE(旋转位置编码)频率的缩放因子。

此因子通过修改位置信息的编码方式来缩放有效上下文窗口。较高的值允许模型处理更长的上下文,因为它使位置编码更精细,这对于将模型扩展到其原始训练上下文长度之外特别有用。

evalBatchSize (可选) : number

在评估期间,在单个批次中一起处理的输入 token 数量。

增加此值通常通过利用并行化来提高处理速度和吞吐量,但需要更多内存。找到最佳批次大小通常需要在性能提升和可用硬件资源之间取得平衡。

flashAttention (可选) : boolean

启用 Flash Attention 以优化注意力计算。

Flash Attention 是一种高效的实现,通过优化注意力机制的计算方式来减少内存使用并加快生成速度。这可以显着提高兼容硬件上的性能,特别是对于较长的序列。

keepModelInMemory (可选) : boolean

启用后,防止模型从系统内存中换出。

即使部分模型被卸载到 GPU,此选项也会为模型保留系统内存,从而确保在需要使用模型时实现更快的访问时间。尤其是在交互式应用程序中提高了性能,但会增加整体 RAM 需求。

seed (可选) : number

模型初始化的随机种子值,以确保可重现的输出。

设置特定的种子可确保模型内的随机操作(如采样)在不同的运行中产生相同的结果,这对于测试和开发场景中的可重现性非常重要。

useFp16ForKVCache (可选) : boolean

启用后,以半精度 (FP16) 格式存储键值缓存。

此选项通过对注意力缓存使用 16 位浮点数而不是 32 位浮点数,显着减少了推理期间的内存使用量。虽然这可能会略微降低数值精度,但对于大多数应用程序而言,对输出质量的影响通常是最小的。

tryMmap (可选) : boolean

尝试在加载模型时使用内存映射 (mmap) 文件访问。

内存映射可以通过将模型文件直接从磁盘映射到内存来缩短初始加载时间,从而允许操作系统处理分页。这对于快速启动特别有利,但如果模型大于可用系统 RAM,导致频繁的磁盘访问,则可能会降低性能。

numExperts (可选) : number

指定用于具有专家混合 (MoE) 架构模型的专家数量。

MoE 模型包含多个“专家”网络,这些网络专门研究任务的不同方面。此参数控制在推理期间激活多少个此类专家,从而影响性能和输出质量。仅适用于使用 MoE 架构设计的模型。

llamaKCacheQuantizationType (可选) : LLMLlamaCacheQuantizationType | false

Llama 模型的键缓存的量化类型。

此选项确定用于存储注意力机制缓存的键组件的精度级别。较低的精度值(例如,4 位或 8 位量化)会显着减少推理期间的内存使用量,但可能会略微影响输出质量。效果因模型而异,有些模型比其他模型更能抵抗量化。

设置为 false 以禁用量化并使用全精度。

llamaVCacheQuantizationType (可选) : LLMLlamaCacheQuantizationType | false

Llama 模型的值缓存的量化类型。

与键缓存量化类似,此选项控制用于注意力机制缓存的值组件的精度。降低精度可以节省内存,但可能会影响生成质量。此选项需要启用 Flash Attention 才能正常运行。

不同的模型对值缓存量化的反应不同,因此可能需要进行实验才能找到特定用例的最佳设置。设置为 false 以禁用量化。