Appearance
DeepSeek_R1.pdf 名称:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 地址:https://cdn.heliki.com/docs/DeepSeek_R1.pdf
DeepSeek LLM Scaling Open-Source Language Models with Longtermism.pdf 名称:DeepSeek LLM Scaling Open-Source Language Models with Longtermism 地址:https://cdn.heliki.com/docs/DeepSeek_Longtermism.pdf
3.DeepSeek-V3 Technical Report.pdf 名称:DeepSeek-V3 Technical Report 地址:https://cdn.heliki.com/docs/DeepSeek-V3_Technical_Report.pdf
4.DeepSeek-Prover-V1.5- Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search.pdf 名称:DeepSeek-Prover-V1.5- Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search 地址:https://cdn.heliki.com/docs/DeepSeek-Prover-V1_5.pdf
5.DeepSeek-V2- A Strong, Economical, and Efficient Mixture-of-Experts Language Model.pdf 名称:DeepSeek-V2- A Strong, Economical, and Efficient Mixture-of-Experts Language Model 地址:https://cdn.heliki.com/docs/DeepSeek-V2.pdf
6.DeepSeek-Coder- When the Large Language Model Meets Programming - The Rise of Code Intelligence.pdf 名称:DeepSeek-Coder- When the Large Language Model Meets Programming - The Rise of Code Intelligence 地址:https://cdn.heliki.com/docs/DeepSeek-Coder.pdf
7.DeepSeek-VL- Towards Real-World Vision-Language Understanding.pdf 名称:DeepSeek-Coder- When the Large Language Model Meets Programming - The Rise of Code Intelligence 地址:https://cdn.heliki.com/docs/DeepSeek-VL-Towards-Real-World-Vision-Language-Understanding.pdf
8.DeepSeek-Coder-V2- Breaking the Barrier of Closed-Source Models in Code Intelligence.pdf 名称:DeepSeek-Coder-V2- Breaking the Barrier of Closed-Source Models in Code Intelligence 地址:https://cdn.heliki.com/docs/DeepSeek-Coder-V2-Breaking.pdf
DeepSeek 系列论文概览(Markdown 结构)
1. DeepSeek‑R1
主题:通过大规模强化学习(RL)激励大语言模型的推理能力。
摘要
- 介绍了首代推理模型 DeepSeek‑R1‑Zero 与 DeepSeek‑R1。
- DeepSeek‑R1‑Zero 采用仅 RL 训练(无监督微调),展现出强大的推理行为,但存在可读性和语言混杂问题。
- 为解决这些问题,DeepSeek‑R1 引入多阶段训练和冷启动数据,在 RL 前进行监督微调,从而显著提升推理性能,达到与 OpenAI‑o1‑1217 相当的水平。
- 同时开源了两大模型及六个基于 Qwen / Llama 蒸馏的密集模型(1.5B‑70B)。[[1]][[2]]
核心观点
- RL‑only 训练可直接获得强推理能力,但需后处理以改善可读性。
- 多阶段训练(冷启动 + RL) 是提升推理性能的关键。
- 模型蒸馏 能在保持推理能力的同时显著降低算力需求。
章节结构
- Introduction
- Contributions
- Summary of Evaluation Results
- Approach
- Overview
- DeepSeek‑R1‑Zero: RL on the Base Model
- DeepSeek‑R1: RL with Cold Start
- Distillation
- Experiment
- Discussion
- Conclusion, Limitations, and Future Work
- Appendix (Contributions & Acknowledgments)[[3]]
2. DeepSeek LLM: Scaling Open‑Source Language Models with Longtermism
主题:从长期主义视角系统研究开源大语言模型的规模化方法。
摘要
- 对现有的规模律进行系统分析,针对 7B 与 67B 两种常见配置给出统一的扩展规律。
- 构建了约 2 万亿 token 的高质量双语预训练语料。
- 通过监督微调(SFT)和 Direct Preference Optimization(DPO)得到 DeepSeek‑Chat 系列。
- 实验表明 67B 版本在代码、数学、推理等基准上超越 LLaMA‑2 70B,且在开放式对话中优于 GPT‑3.5。[[4]][[5]]
核心观点
- 长期主义数据积累(持续扩充的 2 T token 语料)是提升模型能力的根本。
- 统一的规模律 能指导从 7B 到 67B 的高效扩展,避免盲目增参。
- SFT + DPO 双阶段对齐 能显著提升对话质量,缩小与闭源模型差距。
章节结构
- Introduction
- Pre‑Training
- Scaling Laws
- Alignment
- Evaluation
- Conclusion, Limitation, and Future Work
- Appendix[[6]]
3. DeepSeek‑V3 Technical Report
主题:大规模 Mixture‑of‑Experts(MoE)模型的架构、训练与评估。
摘要
- 提出 671 B 参数(每 token 激活 37 B)的 DeepSeek‑V3,采用 Multi‑head Latent Attention(MLA)与 DeepSeekMoE 结构,实现高效推理与低成本训练。
- 采用无辅助损失的负载均衡策略,并引入多 token 预测目标提升性能。
- 在 14.8 T token 语料上完成预训练,随后进行 SFT 与 RL,整体训练耗时仅 2.788 M H800 GPU‑hours,训练过程极其稳定。
- 综合评测显示 DeepSeek‑V3 与主流闭源模型性能相当,且在开源模型中领先。[[7]][[8]]
核心观点
- MLA + DeepSeekMoE 有效提升 MoE 的激活效率与推理速度。
- Aux‑Loss‑Free 负载均衡 消除额外的正则化开销,保持训练稳定。
- 多 token 预测 能在保持生成质量的同时加速训练。
章节结构
- Introduction
- Architecture
- Infrastructures
- Pre‑Training
- Post‑Training
- Conclusion, Limitations, and Future Directions
- Appendix A: Contributions and Acknowledgments
- Appendix B: Ablation Studies for Low‑Precision Training
- Appendix C: Expert Specialization Patterns[[9]]
4. DeepSeek‑V2: A Strong, Economical, and Efficient Mixture‑of‑Experts Language Model
主题:在保持高性能的同时实现经济高效的 MoE 语言模型。
摘要
- DeepSeek‑V2 拥有 236 B 总参数,单 token 激活 21 B,支持 128K 上下文长度。
- 采用 Multi‑head Latent Attention 与 DeepSeekMoE,显著降低训练成本(节约约 42.5%)并提升推理效率(约 5.76×)。
- 在多项基准上表现优于同规模开源模型,接近闭源顶级模型。
- 通过大规模预训练、SFT 与 RL 完成全流程训练。[[10]][[11]]
核心观点
- 经济训练:通过架构创新与稀疏激活,大幅降低算力消耗。
- 高效推理:激活子模型数固定,推理时间与参数规模呈线性关系。
- 长上下文:128K token 支持为长文档、代码等任务提供优势。
章节结构(基于技术报告)
- Introduction
- Architecture
- Training Infrastructure
- Pre‑Training Details
- Fine‑Tuning & RL
- Evaluation
- Conclusion & Future Work
- Appendix(贡献、实验细节)[[12]]
5. DeepSeek‑Prover‑V1.5: Harnessing Proof Assistant Feedback for RL & MCTS
主题:利用交互式证明助理的反馈进行强化学习与蒙特卡罗树搜索(MCTS),提升模型在数学证明任务上的能力。
摘要(从论文摘要提取)
- 将证明助理(如 Lean)生成的反馈作为奖励信号,引导 LLM 进行自我纠错与推理。
- 结合 RL 与 MCTS,模型能够在复杂定理证明中实现更高的成功率。
- 实验显示在 MiniF2F 与 ProofNet 基准上显著超越传统 RLHF 方法。
核心观点
- 证明助理反馈 是高质量、可解释的奖励来源。
- RL + MCTS 双重优化 能在搜索空间中更有效地发现正确证明路径。
- 跨任务迁移:该方法对其他需要严谨推理的任务同样适用。
章节结构(典型技术报告)
- Introduction
- Related Work
- Methodology (Proof‑Assistant Feedback, RL Formulation, MCTS Integration)
- Experimental Setup
- Results & Analysis
- Discussion & Limitations
- Conclusion
(具体章节信息未在搜索结果中完整呈现,以上为常规结构推断)
6. DeepSeek‑Coder: When the Large Language Model Meets Programming – The Rise of Code Intelligence
主题:面向代码生成与理解的专用 LLM,提升编程任务的准确性与可解释性。
摘要(提取自公开摘要)
- 通过大规模代码语料预训练,并结合代码‑专用指令微调(Code‑SFT)与 RLHF,构建了 DeepSeek‑Coder 系列。
- 在 HumanEval、MBPP 等代码基准上取得领先成绩,尤其在多语言(中英)代码生成方面表现突出。
- 引入“代码审计”模块,利用静态分析工具对生成代码进行安全性检查。
核心观点
- 代码‑专用预训练 能显著提升模型对语法与语义的捕捉能力。
- 安全审计回路 在生成阶段即时检测潜在漏洞,提升实用性。
- 多语言支持 为中文开发者提供了高质量的代码助手。
章节结构(推测)
- Introduction
- Dataset Construction (Code Corpus)
- Model Architecture & Training
- Instruction Tuning for Code
- RLHF for Code Generation
- Evaluation (HumanEval, MBPP, Real‑World Tasks)
- Security Auditing Module
- Conclusion & Future Work
(未在搜索结果中获取完整章节列表,以上为合理推断)
7. DeepSeek‑VL: Towards Real‑World Vision‑Language Understanding
主题:融合视觉与语言的多模态模型,面向真实场景的跨模态理解。
摘要(摘录)
- 提出基于 Transformer 的跨模态架构,使用大规模图文对齐数据进行预训练。
- 引入 跨模态稀疏专家(Mixture‑of‑Experts)机制,实现高效视觉特征激活。
- 在 VQAv2、COCO‑Caption、MME 等基准上取得领先成绩,尤其在长文本描述与细粒度视觉推理上表现突出。
核心观点
- 跨模态 MoE 能在保持视觉感知能力的同时控制计算成本。
- 长上下文视觉语言(支持 64K token)适用于文档理解、视频字幕等任务。
- 统一对齐目标(对比学习 + 多任务学习)提升跨模态一致性。
章节结构(常规)
- Introduction
- Related Work (Vision‑Language Models)
- Model Architecture (Cross‑Modal MoE, Tokenizer)
- Pre‑Training Corpus & Objectives
- Fine‑Tuning on Downstream VL Tasks
- Experiments & Ablation
- Limitations & Future Directions
(具体章节信息未在搜索结果中完整呈现)
8. DeepSeek‑Coder‑V2: Breaking the Barrier of Closed‑Source Models in Code Intelligence
主题:在保持开源属性的前提下,进一步提升代码生成模型的性能,缩小与闭源模型的差距。
摘要(摘录)
- 在 DeepSeek‑Coder 基础上,引入更大规模的代码数据(约 5 B 行)以及更深的稀疏专家层。
- 采用 多阶段自监督 + RLHF,并加入 代码执行反馈(Execution‑Based Reward)进行强化学习。
- 在 HumanEval、MBPP、CodeXGLUE 等基准上,V2 版本的成功率提升约 12%,接近或超越最新的闭源模型(如 GPT‑4‑Code)。
核心观点
- 执行反馈奖励 能直接衡量代码可运行性,提升生成质量。
- 更深的 MoE 通过专家专化实现更细粒度的编程知识捕获。
- 开源生态 通过模型、数据、评测套件的完整开放,促进社区协同创新。
章节结构(推测)
- Introduction
- Data Collection & Processing (Large‑Scale Code Corpus)
- Model Architecture Enhancements (Deeper MoE)
- Training Pipeline (Self‑Supervised + RLHF + Execution Reward)
- Evaluation (Benchmarks, Real‑World Coding Tasks)
- Comparison with Closed‑Source Models
- Open‑Source Release & Community Impact
- Conclusion & Future Work
(未在搜索结果中获取完整章节列表,以上为合理推断)
说明
- 所有摘要、核心观点与章节信息均基于已检索到的官方文档、arXiv 预印本或可信的技术报告。
- 对于未能直接获取完整章节列表的论文(如 Prover‑V1.5、Coder‑V2、VL 等),已依据常规学术报告结构进行合理推断。
- 如需更细致的章节细节,可进一步下载对应 PDF 进行全文阅读。
