Skip to content

DeepSeek LLM:开源大模型的长期主义扩展方法

—— DeepSeek 研究团队技术报告

内容摘要

大部分开源大模型团队都在追求快速上线、快速迭代,但DeepSeek团队选择了一条不同的路:从一开始就按照"长期主义"原则,系统性地积累高质量训练数据、研究规模律、优化训练流程。

这篇技术报告介绍了他们如何构建约2万亿token的双语(中英文)预训练语料,如何通过统一的规模律指导7B和67B两种配置的训练,以及如何通过监督微调(SFT)和直接偏好优化(DPO)让模型具备实用的对话能力。

实验结果表明,DeepSeek-67B在多项基准测试中超越了LLaMA-2 70B:代码生成(HumanEval)、数学推理(GSM8K)、常识推理(HellaSwag)等任务上都有明显优势。在开放式对话评测中,DeepSeek-Chat的表现接近GPT-3.5,而且完全开源。

这个工作的价值不只是模型本身,更重要的是展示了一条可持续的开源大模型发展路径:不靠烧钱堆算力,而是靠系统的数据工程、科学的规模律研究、以及长期的技术积累。

核心发现

数据质量比数据量更重要 团队花了大量时间构建高质量的2T token双语语料,包括网页、书籍、代码、论文等多种来源。数据清洗过程非常严格:去重、过滤低质量内容、平衡不同领域的比例。实验证明,在干净数据上训练的模型,性能明显优于在更大规模但质量参差的数据上训练的模型。

统一的规模律能指导高效扩展 团队系统研究了7B和67B两种配置下模型性能与训练成本的关系,总结出了统一的规模律。这个规律可以预测:给定算力预算,应该用多大的模型、训练多少token才能达到最优性能。这避免了盲目增加参数或训练时间导致的资源浪费。

SFT+DPO是实用对话能力的关键 预训练模型虽然能力强,但不会"好好说话"。DeepSeek-Chat通过两阶段对齐实现了实用的对话能力:先用监督微调(SFT)让模型学会遵循指令,再用直接偏好优化(DPO)让模型的回答更符合人类偏好。在AlpacaEval等对话评测上,DeepSeek-Chat-67B接近GPT-3.5的水平。

章节要点速览

第一章 引言 开源大模型面临的核心挑战是如何在有限资源下达到闭源模型的性能。传统方法要么数据积累不足,要么训练策略不够科学。DeepSeek选择从长期视角系统解决这些问题。

第二章 预训练 详细介绍了2T token双语语料的构建过程:数据来源、清洗流程、质量控制、领域配比。预训练使用标准的自回归目标,模型架构基于Transformer,针对长上下文做了优化。

第三章 规模律 通过大量实验,总结出了7B和67B配置下模型性能与训练FLOPs的关系。规模律可以回答这些问题:给定算力预算,应该用多大模型?训练多少步?数据和模型大小如何权衡?

第四章 对齐 介绍了从预训练模型到对话模型的完整流程:

  • 指令数据收集(100万+高质量对话样本)
  • 监督微调(SFT)让模型学会遵循指令
  • 直接偏好优化(DPO)让回答更符合人类偏好
  • 安全对齐避免有害输出

第五章 评测 在30+基准测试上对比了DeepSeek-67B与LLaMA-2 70B、GPT-3.5等模型。结果显示DeepSeek在代码、数学、推理等任务上有优势,对话能力接近GPT-3.5。

第六章 结论与展望 DeepSeek-LLM证明了长期主义路线的可行性。未来方向包括扩展到更大规模(MoE架构)、提升多模态能力、以及在垂直领域的应用。

附录 包含了详细的训练配置、超参数设置、数据样本示例、以及更多的评测结果。

DeepSeek-LLM的核心理念是: 开源模型不需要追求短期的指标竞赛,而是要建立系统的数据、方法和工程积累,这样才能持续缩小与闭源模型的差距。


点击这里查看完整论文(PDF)