周一. 4 月 14th, 2025

LLm 大模型自然语言处理预训练模型

如何构建和优化推理型大型语言模型？DeepSeek R1的启示

作者52nlp

2 月 9, 2025

前两天国外大模型领域知名博主 Sebastian Raschka 发表了一篇”理解推理大模型“的文章:

Understanding Reasoning LLMs

Methods and Strategies for Building and Refining Reasoning Models

https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html

这篇文章非常棒，主要讨论了如何构建和改进具有推理能力的大型语言模型（LLMs），特别是DeepSeek R1模型的开发过程，以及四种主要的构建推理模型的方法。以下是该文的简要解读，中文翻译版可以参考文末的pdf附件。

一、什么是推理模型？

在AI领域，「推理模型」特指能够处理多步骤复杂任务的大型语言模型（LLMs）。与简单的事实问答（如“法国的首都是哪里？”）不同，推理模型需要拆解问题、生成中间步骤，最终得出答案。例如：

数学题：计算7^999的最后一位数字，需通过观察幂次循环规律（7→9→3→1）并取余推导。
逻辑谜题：16个球中一半是高尔夫球，其中一半是蓝色，需分步计算总数。
编程挑战：验证代码的正确性并推导解决方案。

这类模型的输出通常包含显式的思考过程（如公式推导），或隐式地通过多轮迭代优化答案。

二、推理模型的优势与局限

优势

复杂任务表现优异：擅长数学证明、代码调试、逻辑谜题等需要分步推理的任务。
更好的泛化能力：能处理未见过的复杂问题类型。
支持链式思考（Chain-of-Thought）：通过中间步骤提高答案的可解释性和准确性。

局限

成本高昂：推理时需要更多计算资源，生成更多token。
简单任务效率低：对知识型问答或翻译等任务可能“过度思考”，导致延迟和错误。
依赖高质量数据：训练需大量标注的中间步骤数据，否则易产生“幻觉”。

三、DeepSeek R1的四大训练策略

Sebastian Raschka以DeepSeek R1为例，总结了构建推理模型的四种核心方法：

1. 推理时扩展（Inference-Time Scaling）

核心思想：通过增加推理时的计算资源提升表现，类似人类“多花时间思考”。
实现方式：
- 链式提示（CoT Prompting）：在输入中加入“逐步思考”等指令，强制模型生成中间步骤。
- 多数投票（Majority Voting）：生成多个答案后选择最优解。
- 搜索策略（Beam Search/Lookahead）：结合奖励模型筛选最佳路径。
典型案例：OpenAI的o1模型可能采用此策略，导致其推理成本高于GPT-4。

2. 纯强化学习（Pure RL）

突破性发现：DeepSeek-R1-Zero证明，推理能力可通过纯强化学习自发涌现。
训练流程：
- 从预训练模型DeepSeek-V3（671B参数）出发，跳过监督微调（SFT）。
- 使用两种奖励信号：准确性（代码编译验证/数学结果校验）和格式（LLM判断输出规范性）。
结果：模型自主生成中间思考步骤，如解方程时的“啊哈时刻”（Aha Moment）。

3. 监督微调+强化学习（SFT + RL）

DeepSeek-R1的核心方法：
1. 用R1-Zero生成初始“冷启动”SFT数据。
2. 监督微调（SFT）优化模型表现。
3. 二次强化学习（RL）加入一致性奖励，防止语言混合。
4. 最终结合60万条链式思考（CoT）数据和20万条知识数据二次训练。
效果：在数学、代码等基准测试中显著超越纯RL模型（如AIME得分从71.0提升至79.8）。

4. 蒸馏（Distillation）

目标：将大模型能力迁移到小模型，降低部署成本。
DeepSeek实践：
- 用R1生成的SFT数据微调Llama和Qwen系列小模型（1.5B~70B参数）。
- 结果：32B的蒸馏模型性能接近R1-Zero，成本大幅降低。
启示：蒸馏虽依赖大模型，但为预算有限的研究者提供了可行路径。

四、低成本开发推理模型的实践案例

案例1：Sky-T1（450美元训练）

方法：仅用1.7万条SFT数据微调32B模型。
效果：性能接近OpenAI o1，成本不到学术会议注册费。

案例2：TinyZero（30美元训练）

方法：对3B模型应用纯强化学习。
突破：小模型展现出自我验证能力（如修正错误计算步骤）。

新方向：旅程学习（Journey Learning）

核心：在SFT数据中引入错误路径和纠错过程，模拟人类试错学习。
潜力：可能提升模型的自我修正能力，减少“幻觉”。

五、总结与展望

推理模型的核心价值：解决复杂问题，但需权衡成本与任务需求。
技术趋势：RL+SFT+推理时扩展的组合策略将成主流（如DeepSeek R1与o1的较量）。
开源与低成本化：蒸馏和小规模RL实验（如TinyZero）为社区提供了新工具。

未来，随着“旅程学习”等方法的成熟，推理模型有望在保持高效的同时，进一步逼近人类的思考深度。正如Raschka所言：“我们正见证AI推理能力的黎明。”

延伸阅读

DeepSeek R1技术报告
Sky-T1项目
《从零构建大型语言模型》（Sebastian Raschka著，亚马逊有售）

（本文为Sebastian Raschka原文的归纳与解读，部分案例为作者补充说明。）

以下是该文的中文翻译版本，仅供学习参考：

理解推理大模型-中文版下载

作者 52nlp

相关文章

AINLP LLm 大模型

Seed-Thinking-v1.5：用强化学习推动语言模型的深度推理能力

4 月 13, 2025 52nlp

Kimi-VL：开源多模态模型的新标杆——解读高效视觉语言混合专家模型

4 月 10, 2025 52nlp

基于飞桨框架3.0单机部署 DeepSeek-R1-Distill-Qwen-14B 实战

4 月 3, 2025 52nlp

发表回复

You missed

AINLP LLm 大模型

Seed-Thinking-v1.5：用强化学习推动语言模型的深度推理能力

2025年04月13号 52nlp

Kimi-VL：开源多模态模型的新标杆——解读高效视觉语言混合专家模型

2025年04月10号 52nlp

基于飞桨框架3.0单机部署 DeepSeek-R1-Distill-Qwen-14B 实战

2025年04月3号 52nlp

Qwen2.5-Omni：迈向通用多模态AI的里程碑——解读首个支持实时多模态输入与输出的统一模型

2025年03月27号 52nlp