Skip to content

REFT:基于强化微调的推理增强方法

—— ByteDance Research 团队研究报告

内容摘要

大型语言模型(LLMs)的推理能力通常依赖于带有思维链(Chain-of-Thought, CoT)标注的监督微调(SFT)
然而,SFT 的泛化能力有限:在数学推理等任务中,每个问题往往只有一个标注的推理路径,模型难以从多样化的推理方式中学习。

为了解决这一问题,本文提出一种简洁且高效的强化学习框架——REFT(Reasoning with REinforced Fine-Tuning)
该方法在初步 SFT 训练的基础上,引入 在线强化微调(Reinforcement Fine-Tuning),通过 PPO(Proximal Policy Optimization)算法 自动采样多条推理路径,并利用真实答案计算奖励信号,形成闭环优化过程,从而显著增强模型的推理泛化能力。

GSM8K、MathQA、SVAMP 等数学推理数据集上的实验结果表明,REFT 在不引入额外训练问题的前提下,显著优于传统 SFT 模型,且与 推理阶段策略(如多数投票、重排序) 结合后,性能可进一步提升。

本研究展示了一种新的 LLM 训练范式——通过强化学习内化多样推理路径,而非仅依赖外部标注数据,从而在推理质量与泛化性之间取得平衡。

章节要点速览

  • 第一章 引言:指出 SFT 的局限性与推理泛化挑战。
  • 第二章 方法概述:提出 REFT 的双阶段训练流程——SFT 预热与强化微调。
  • 第三章 强化学习机制:详解 PPO 的奖励设计与多路径采样策略。
  • 第四章 实验设计:在 GSM8K、MathQA、SVAMP 上验证模型表现。
  • 第五章 结果分析:对比 SFT、ReFT 与推理阶段策略(投票、重排)效果。
  • 第六章 结论与展望:总结 ReFT 的优势,强调其可扩展性与在推理任务中的潜力。

REFT 的核心创新在于:
不增加训练数据,仅通过优化训练过程本身,使模型学会“如何思考”而非仅“学会答案”。


点击这里查看完整论文(PDF)