前两天国外大模型领域知名博主 Sebastian Raschka 发表了一篇”理解推理大模型“的文章:

Understanding Reasoning LLMs

Methods and Strategies for Building and Refining Reasoning Models

https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html

这篇文章非常棒,主要讨论了如何构建和改进具有推理能力的大型语言模型(LLMs),特别是DeepSeek R1模型的开发过程,以及四种主要的构建推理模型的方法。以下是该文的简要解读,中文翻译版可以参考文末的pdf附件。

一、什么是推理模型?

在AI领域,「推理模型」特指能够处理多步骤复杂任务的大型语言模型(LLMs)。与简单的事实问答(如“法国的首都是哪里?”)不同,推理模型需要拆解问题、生成中间步骤,最终得出答案。例如:

  • 数学题:计算7^999的最后一位数字,需通过观察幂次循环规律(7→9→3→1)并取余推导。
  • 逻辑谜题:16个球中一半是高尔夫球,其中一半是蓝色,需分步计算总数。
  • 编程挑战:验证代码的正确性并推导解决方案。

这类模型的输出通常包含显式的思考过程(如公式推导),或隐式地通过多轮迭代优化答案。


二、推理模型的优势与局限

优势

  1. 复杂任务表现优异:擅长数学证明、代码调试、逻辑谜题等需要分步推理的任务。
  2. 更好的泛化能力:能处理未见过的复杂问题类型。
  3. 支持链式思考(Chain-of-Thought):通过中间步骤提高答案的可解释性和准确性。

局限

  1. 成本高昂:推理时需要更多计算资源,生成更多token。
  2. 简单任务效率低:对知识型问答或翻译等任务可能“过度思考”,导致延迟和错误。
  3. 依赖高质量数据:训练需大量标注的中间步骤数据,否则易产生“幻觉”。

三、DeepSeek R1的四大训练策略

Sebastian Raschka以DeepSeek R1为例,总结了构建推理模型的四种核心方法:

1. 推理时扩展(Inference-Time Scaling)

  • 核心思想:通过增加推理时的计算资源提升表现,类似人类“多花时间思考”。
  • 实现方式
    • 链式提示(CoT Prompting):在输入中加入“逐步思考”等指令,强制模型生成中间步骤。
    • 多数投票(Majority Voting):生成多个答案后选择最优解。
    • 搜索策略(Beam Search/Lookahead):结合奖励模型筛选最佳路径。
  • 典型案例:OpenAI的o1模型可能采用此策略,导致其推理成本高于GPT-4。

2. 纯强化学习(Pure RL)

  • 突破性发现:DeepSeek-R1-Zero证明,推理能力可通过纯强化学习自发涌现
  • 训练流程
    • 从预训练模型DeepSeek-V3(671B参数)出发,跳过监督微调(SFT)。
    • 使用两种奖励信号:准确性(代码编译验证/数学结果校验)和格式(LLM判断输出规范性)。
  • 结果:模型自主生成中间思考步骤,如解方程时的“啊哈时刻”(Aha Moment)。

3. 监督微调+强化学习(SFT + RL)

  • DeepSeek-R1的核心方法
    1. 用R1-Zero生成初始“冷启动”SFT数据。
    2. 监督微调(SFT)优化模型表现。
    3. 二次强化学习(RL)加入一致性奖励,防止语言混合。
    4. 最终结合60万条链式思考(CoT)数据和20万条知识数据二次训练。
  • 效果:在数学、代码等基准测试中显著超越纯RL模型(如AIME得分从71.0提升至79.8)。

4. 蒸馏(Distillation)

  • 目标:将大模型能力迁移到小模型,降低部署成本。
  • DeepSeek实践
    • 用R1生成的SFT数据微调Llama和Qwen系列小模型(1.5B~70B参数)。
    • 结果:32B的蒸馏模型性能接近R1-Zero,成本大幅降低。
  • 启示:蒸馏虽依赖大模型,但为预算有限的研究者提供了可行路径。

四、低成本开发推理模型的实践案例

案例1:Sky-T1(450美元训练)

  • 方法:仅用1.7万条SFT数据微调32B模型。
  • 效果:性能接近OpenAI o1,成本不到学术会议注册费。

案例2:TinyZero(30美元训练)

  • 方法:对3B模型应用纯强化学习。
  • 突破:小模型展现出自我验证能力(如修正错误计算步骤)。

新方向:旅程学习(Journey Learning)

  • 核心:在SFT数据中引入错误路径和纠错过程,模拟人类试错学习。
  • 潜力:可能提升模型的自我修正能力,减少“幻觉”。

五、总结与展望

  • 推理模型的核心价值:解决复杂问题,但需权衡成本与任务需求。
  • 技术趋势:RL+SFT+推理时扩展的组合策略将成主流(如DeepSeek R1与o1的较量)。
  • 开源与低成本化:蒸馏和小规模RL实验(如TinyZero)为社区提供了新工具。

未来,随着“旅程学习”等方法的成熟,推理模型有望在保持高效的同时,进一步逼近人类的思考深度。正如Raschka所言:“我们正见证AI推理能力的黎明。”


延伸阅读

(本文为Sebastian Raschka原文的归纳与解读,部分案例为作者补充说明。)

以下是该文的中文翻译版本,仅供学习参考:

作者 52nlp

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注