DeepSeek-V3：671B参数的高效MoE模型

—— DeepSeek 研究团队技术报告

内容摘要

大规模语言模型训练成本越来越高，但DeepSeek-V3用实际行动证明：通过合理的架构设计和训练策略，可以用相对较低的成本训练出接近闭源模型性能的开源模型。

DeepSeek-V3拥有671B总参数，但采用了稀疏激活的Mixture-of-Experts（MoE）架构，每个token只激活37B参数。这意味着虽然模型容量巨大，但推理速度和成本都接近37B的密集模型。更重要的是，团队在14.8T token的预训练数据上完成训练，总共只用了2.788M H800 GPU小时，训练效率远超同规模模型。

架构上，V3引入了Multi-head Latent Attention（MLA）和改进的DeepSeekMoE结构。MLA通过压缩KV缓存大幅降低推理时的显存占用，DeepSeekMoE通过无辅助损失的负载均衡策略避免了专家利用不均的问题。此外，模型还引入了多token预测目标，在保持生成质量的同时加速了训练。

在MMLU、HumanEval、MATH等30多个基准测试上，DeepSeek-V3的表现与GPT-4、Claude-3.5等闭源模型相当，在某些任务上甚至更优。整个训练过程极其稳定，几乎没有出现loss尖峰或崩溃。

核心发现

MLA大幅降低推理显存 传统Transformer的KV缓存在长上下文场景下会占用大量显存，限制了batch size和推理速度。Multi-head Latent Attention通过将KV投影到低维潜在空间，在几乎不损失性能的前提下，把KV缓存压缩了5-10倍。这让DeepSeek-V3能在单卡上支持更长的上下文或更大的batch。

无辅助损失的负载均衡 传统MoE模型需要额外的辅助损失来平衡各专家的负载，但这会引入额外的超参数调优成本，还可能影响训练稳定性。DeepSeek-V3采用了基于序列级均衡的策略，完全不需要辅助损失，就能让各专家的激活频率保持均衡，同时避免了专家崩溃的问题。

多token预测加速训练 除了标准的下一个token预测，V3还引入了多token预测目标：模型在预测当前token的同时，还要预测未来几个token。这种辅助任务能让模型学到更强的长程依赖关系，加速收敛，同时提升生成质量。实验表明多token预测能让训练效率提升约15%。

训练稳定性接近完美 在整个2.788M GPU小时的训练过程中，loss曲线几乎是一条光滑的下降曲线，没有出现明显的尖峰或振荡。这得益于精心设计的学习率调度、梯度裁剪、以及针对MoE的稳定性优化。稳定训练意味着更少的人工干预和重启成本。

章节要点速览

第一章引言 MoE架构通过稀疏激活提供了高效扩展模型容量的方法，但传统MoE存在负载不均、训练不稳定、推理显存占用高等问题。DeepSeek-V3通过架构创新系统解决了这些问题。

第二章架构 详细介绍了Multi-head Latent Attention的原理和实现，以及DeepSeekMoE的专家路由机制。MLA通过低秩分解压缩KV缓存，MoE通过序列级负载均衡避免辅助损失。

第三章基础设施 训练671B参数模型需要高效的分布式系统。团队使用了混合并行策略（数据并行+张量并行+专家并行），并针对通信瓶颈做了大量优化，包括重叠通信与计算、优化all-to-all通信模式等。

第四章预训练 14.8T token的预训练数据包含网页、书籍、代码、论文等多种来源。数据清洗流程严格：去重、质量过滤、有害内容检测。训练使用了cosine学习率调度，配合梯度裁剪和权重衰减。

第五章后训练 预训练后的模型通过监督微调（SFT）和强化学习（RL）获得实用的对话和指令遵循能力。SFT阶段使用了150万高质量指令样本，RL阶段采用Group Relative Policy Optimization（GRPO）提升回答质量。

第六章结论与展望 DeepSeek-V3证明了开源模型可以在性能和成本之间找到更好的平衡点。未来方向包括扩展到多模态、提升长上下文能力、以及在垂直领域的应用。

附录A 贡献与致谢 列出了参与V3开发的团队成员和他们的具体贡献。

附录B 低精度训练的消融实验 研究了FP8、BF16等不同精度对训练稳定性和最终性能的影响。

附录C 专家专化模式 分析了训练后各专家学到的知识分布：有的专家偏向代码，有的偏向数学，有的偏向常识推理。

DeepSeek-V3的核心突破在于：通过精心的架构设计和训练优化，让超大规模MoE模型的训练成本和推理效率都达到了实用级别，为开源社区提供了新的标杆。

点击这里查看完整论文（PDF）

核心概念

规划阶段

构建阶段

部署阶段

指南

资源

Agent Builder

ChatKit

DeepSeek模型技术

DeepSeek-V3：671B参数的高效MoE模型

—— DeepSeek 研究团队技术报告

内容摘要

核心发现

章节要点速览

DeepSeek-V3：671B参数的高效MoE模型 ​

—— DeepSeek 研究团队技术报告 ​

内容摘要 ​

核心发现 ​

章节要点速览 ​

DeepSeek-V3：671B参数的高效MoE模型

—— DeepSeek 研究团队技术报告

内容摘要

核心发现

章节要点速览