Appearance
REFT:基于强化微调的推理增强方法
—— ByteDance Research 团队研究报告
内容摘要
大型语言模型(LLMs)的推理能力通常依赖于带有思维链(Chain-of-Thought, CoT)标注的监督微调(SFT)。
然而,SFT 的泛化能力有限:在数学推理等任务中,每个问题往往只有一个标注的推理路径,模型难以从多样化的推理方式中学习。
为了解决这一问题,本文提出一种简洁且高效的强化学习框架——REFT(Reasoning with REinforced Fine-Tuning)。
该方法在初步 SFT 训练的基础上,引入 在线强化微调(Reinforcement Fine-Tuning),通过 PPO(Proximal Policy Optimization)算法 自动采样多条推理路径,并利用真实答案计算奖励信号,形成闭环优化过程,从而显著增强模型的推理泛化能力。
在 GSM8K、MathQA、SVAMP 等数学推理数据集上的实验结果表明,REFT 在不引入额外训练问题的前提下,显著优于传统 SFT 模型,且与 推理阶段策略(如多数投票、重排序) 结合后,性能可进一步提升。
本研究展示了一种新的 LLM 训练范式——通过强化学习内化多样推理路径,而非仅依赖外部标注数据,从而在推理质量与泛化性之间取得平衡。
章节要点速览
- 第一章 引言:指出 SFT 的局限性与推理泛化挑战。
- 第二章 方法概述:提出 REFT 的双阶段训练流程——SFT 预热与强化微调。
- 第三章 强化学习机制:详解 PPO 的奖励设计与多路径采样策略。
- 第四章 实验设计:在 GSM8K、MathQA、SVAMP 上验证模型表现。
- 第五章 结果分析:对比 SFT、ReFT 与推理阶段策略(投票、重排)效果。
- 第六章 结论与展望:总结 ReFT 的优势,强调其可扩展性与在推理任务中的潜力。
REFT 的核心创新在于:
不增加训练数据,仅通过优化训练过程本身,使模型学会“如何思考”而非仅“学会答案”。