DeepSeek-R1-0528 模型的蒸馏版本,通过使用来自 DeepSeek-R1-0528 的思维链 (CoT) 在 Qwen3 8B 基础模型上持续进行后训练过程而创建。

543.9K 下载量

112 颗星

3 次分叉

功能

推理

最低系统内存

4GB

标签

8B
qwen3

README

DeepSeek-R1-0528-Qwen3-8B

这是 DeepSeek-R1-0528 模型的蒸馏版本,通过使用来自 DeepSeek-R1-0528 的思维链 (CoT) 在 Qwen3 8B 基础模型上持续进行后训练过程而创建。

该模型旨在推理任务上实现最先进的性能,同时比大型模型更高效。

关于这个模型,官方表示:

我们蒸馏了 DeepSeek-R1-0528 的思维链来对 Qwen3 8B Base 进行后训练,从而获得了 DeepSeek-R1-0528-Qwen3-8B。该模型在 AIME 2024 测试中达到了开源模型中最先进 (SOTA) 的性能,超过了 Qwen3 8B 约 10.0%,并与 Qwen3-235B-thinking 的表现持平。我们相信,来自 DeepSeek-R1-0528 的思维链对于推理模型的学术研究和专注于小规模模型的工业开发都具有重要意义。

DeepSeek-R1-0528 概览

DeepSeek 发布了 R1 模型的新迭代,命名为 DeepSeek-R1-0528。在最新更新中,DeepSeek R1 通过利用增加的计算资源并在后训练期间引入算法优化机制,显著提升了其推理深度和推断能力。该模型在包括数学、编程和通用逻辑在内的各种基准测试中展现了出色的性能。其整体表现目前已接近 O3 和 Gemini 2.5 Pro 等领先模型。