DeepSeek-V2：经济高效的236B MoE模型

—— DeepSeek 研究团队技术报告

内容摘要

训练和部署大规模语言模型的成本一直是行业痛点。大部分团队要么选择较小的密集模型（牺牲能力），要么选择超大规模模型（成本高昂）。DeepSeek-V2提供了第三条路：通过架构创新实现"高性能+低成本"的平衡。

DeepSeek-V2拥有236B总参数，但采用MoE架构，每个token只激活21B参数。这意味着模型容量接近200B+的密集模型，但推理速度和成本接近20B模型。更重要的是，V2引入了两个关键创新：Multi-head Latent Attention（MLA）大幅降低KV缓存占用，DeepSeekMoE通过精细的专家路由提升激活效率。

训练成本方面，相比传统MoE模型，V2节约了约42.5%的算力。推理效率方面，相比同参数量的密集模型，V2的吞吐量提升了5.76倍。同时，模型支持128K超长上下文，适用于文档理解、长代码分析等任务。

在MMLU、HumanEval、GSM8K等基准测试上，DeepSeek-V2的表现优于Mixtral、Qwen等同规模开源模型，在某些任务上接近GPT-4和Claude等闭源模型。通过监督微调和强化学习，V2还具备了实用的对话能力。

核心发现

MLA让长上下文推理成为可能 传统Transformer的KV缓存在长上下文场景下会成为显存瓶颈。128K上下文的KV缓存可能占用数十GB显存，严重限制了batch size。Multi-head Latent Attention通过将KV投影到低维潜在空间，把缓存大小压缩到原来的1/5到1/10，让128K上下文的推理变得现实可行。

DeepSeekMoE提升专家利用率 传统MoE模型存在专家利用不均的问题：有的专家频繁被激活，有的几乎闲置。DeepSeekMoE通过精细的路由策略和负载均衡机制，让各专家的激活频率保持相对均衡，同时避免强制均衡导致的性能损失。实验表明这种策略能让模型容量得到充分利用。

训练成本显著降低 通过稀疏激活和高效的分布式训练系统，V2的训练FLOPs比同性能的密集模型降低了约42.5%。这个成本降幅不是靠减少训练数据或缩短训练时间实现的，而是通过架构效率提升。对于资源有限的团队来说，这意味着更接近大模型能力的门槛。

推理吞吐量大幅提升 在相同硬件配置下，V2的推理吞吐量是同参数量密集模型的5.76倍。这个提升来自两方面：一是MoE稀疏激活减少了计算量，二是MLA降低了显存带宽需求。对于需要大规模部署的应用，这个效率提升能直接转化为成本节约。

章节要点速览

第一章引言 大规模语言模型的训练和部署成本限制了其普及。MoE架构通过稀疏激活提供了扩展模型容量的方法，但传统MoE存在效率不高、训练不稳定等问题。DeepSeek-V2通过创新架构系统解决这些问题。

第二章架构 详细介绍了Multi-head Latent Attention的原理：通过低秩压缩将KV缓存从O(d_model)降到O(d_latent)，同时保持attention机制的表达能力。DeepSeekMoE部分解释了专家路由机制和负载均衡策略。

第三章训练基础设施 训练236B参数模型需要高效的分布式系统。团队使用了混合并行策略（数据并行+张量并行+专家并行），针对MoE的通信模式做了专门优化，包括重叠计算与通信、优化all-to-all操作等。

第四章预训练细节 预训练数据规模、清洗流程、训练超参数设置。数据包含网页、书籍、代码、论文等多种来源，总量约8.1T token。训练使用了AdamW优化器，配合cosine学习率调度和梯度裁剪。

第五章微调与强化学习 预训练模型通过监督微调（SFT）学习遵循指令，再通过强化学习（RL）提升回答质量。SFT数据包含约150万高质量对话样本，RL阶段使用了基于人类反馈的奖励模型。

第六章评测 在30+基准测试上对比了DeepSeek-V2与Mixtral 8x22B、Qwen1.5-110B、GPT-4等模型。结果显示V2在代码生成、数学推理、常识推理等任务上表现优异，综合性能超过大部分同规模开源模型。

第七章结论与展望 DeepSeek-V2证明了通过架构创新可以在性能和成本之间找到更好的平衡。未来方向包括扩展到更大规模（如V3的671B）、提升多模态能力、以及在垂直领域的应用。

附录包含了详细的训练配置、消融实验、专家激活模式分析等内容。消融实验展示了MLA和DeepSeekMoE各自的贡献，专家激活分析揭示了不同专家学到的知识分布。

DeepSeek-V2的核心价值在于：通过MLA和DeepSeekMoE的组合创新，让超大规模MoE模型的训练和推理都达到了经济可行的水平，为资源有限的团队提供了接近顶级模型能力的可能。

点击这里查看完整论文（PDF）

核心概念

规划阶段

构建阶段

部署阶段

指南

资源

Agent Builder

ChatKit

DeepSeek模型技术

DeepSeek-V2：经济高效的236B MoE模型

—— DeepSeek 研究团队技术报告

内容摘要

核心发现

章节要点速览

DeepSeek-V2：经济高效的236B MoE模型 ​

—— DeepSeek 研究团队技术报告 ​

内容摘要 ​

核心发现 ​

章节要点速览 ​

DeepSeek-V2：经济高效的236B MoE模型

—— DeepSeek 研究团队技术报告

内容摘要

核心发现

章节要点速览