Phi-4-reasoning-plus

Phi-4-reasoning-plus 是一个先进的开源推理模型，基于 Phi-4 经过额外强化学习微调，以实现更高的准确性。与 Phi-4-reasoning 类似，它通过合成数据和高质量公共数据的混合进行训练，专注于数学、科学和编码，但平均可生成多 50% 的 token 以提供更详细的响应。该模型拥有 140 亿参数，并支持 128K token 的上下文长度。

输出包括推理链式思维块和总结块。此静态模型依据 MIT 许可证发布，训练数据截止日期为 2025 年 3 月。为获得最佳结果，请使用聊天格式的提示并查阅许可证以获取详细信息。