REFT：基于强化微调的推理增强方法

—— ByteDance Research 团队研究报告

内容摘要

大型语言模型（LLMs）的推理能力通常依赖于带有思维链（Chain-of-Thought, CoT）标注的监督微调（SFT）。
然而，SFT 的泛化能力有限：在数学推理等任务中，每个问题往往只有一个标注的推理路径，模型难以从多样化的推理方式中学习。

为了解决这一问题，本文提出一种简洁且高效的强化学习框架——REFT（Reasoning with REinforced Fine-Tuning）。
该方法在初步 SFT 训练的基础上，引入 在线强化微调（Reinforcement Fine-Tuning），通过 PPO（Proximal Policy Optimization）算法 自动采样多条推理路径，并利用真实答案计算奖励信号，形成闭环优化过程，从而显著增强模型的推理泛化能力。

在 GSM8K、MathQA、SVAMP 等数学推理数据集上的实验结果表明，REFT 在不引入额外训练问题的前提下，显著优于传统 SFT 模型，且与 推理阶段策略（如多数投票、重排序） 结合后，性能可进一步提升。

本研究展示了一种新的 LLM 训练范式——通过强化学习内化多样推理路径，而非仅依赖外部标注数据，从而在推理质量与泛化性之间取得平衡。

章节要点速览

第一章引言：指出 SFT 的局限性与推理泛化挑战。
第二章方法概述：提出 REFT 的双阶段训练流程——SFT 预热与强化微调。
第三章强化学习机制：详解 PPO 的奖励设计与多路径采样策略。
第四章实验设计：在 GSM8K、MathQA、SVAMP 上验证模型表现。
第五章结果分析：对比 SFT、ReFT 与推理阶段策略（投票、重排）效果。
第六章结论与展望：总结 ReFT 的优势，强调其可扩展性与在推理任务中的潜力。

REFT 的核心创新在于：
不增加训练数据，仅通过优化训练过程本身，使模型学会“如何思考”而非仅“学会答案”。

点击这里查看完整论文（PDF）

核心概念

规划阶段

构建阶段

部署阶段

指南

资源

Agent Builder

ChatKit

DeepSeek模型技术

REFT：基于强化微调的推理增强方法

—— ByteDance Research 团队研究报告

内容摘要

章节要点速览

REFT：基于强化微调的推理增强方法 ​

—— ByteDance Research 团队研究报告 ​

内容摘要 ​

章节要点速览 ​

REFT：基于强化微调的推理增强方法

—— ByteDance Research 团队研究报告

内容摘要

章节要点速览