DeepSeek 系列论文清单
截至 2026-05,按研究主线整理。标 ⭐ 为 2025Q4–2026 的最新工作;arXiv 编号均已逐条核对。
概览
- 论文总数:约 30 篇(含技术报告,不含纯代码仓库与模型版本发布)
- 时间跨度:2024-01 ~ 2026-04
- 七条主线:基座大模型 / 推理 / 架构与基建 / 数学 / 代码 / 定理证明 / 多模态与 OCR
一、基座大模型主线
| 论文 |
时间 |
链接 |
一句话核心 |
| DeepSeek LLM: Scaling Open-Source Language Models with Longtermism |
2024-01 |
2401.02954 |
起点,7B/67B,系统研究开源 scaling law |
| DeepSeek-V2 |
2024-05 |
2405.04434 |
首提 MLA(多头潜在注意力),极致降本 |
| DeepSeek-V3 Technical Report |
2024-12 |
2412.19437 |
671B MoE(激活 37B),FP8 训练 |
| DeepSeek-V3.2 |
2025-12 |
2512.02556 |
引入 DSA(稀疏注意力),长上下文提效 |
| DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence ⭐ |
2026-04 |
HF 技术报告 |
V4-Pro(1.6T/49B) + V4-Flash(284B/13B),CSA+HCA 混合注意力、mHC,1M 上下文 |
二、推理
| 论文 |
时间 |
链接 |
一句话核心 |
| DeepSeek-R1: Incentivizing Reasoning via RL |
2025-01 |
2501.12948 |
纯 RL 激发推理;登上 Nature 封面(645:633–638) |
| Inference-Time Scaling for Generalist Reward Modeling(SPCT / DeepSeek-GRM) |
2025-04 |
2504.02495 |
通用奖励模型的推理时扩展 |
| CodeI/O: Condensing Reasoning Patterns via Code Input-Output Prediction † |
2025-02 |
2502.07316 |
用「代码输入输出预测」蒸馏通用推理模式 |
三、核心架构 / 训练 / 基建
| 论文 |
时间 |
链接 |
一句话核心 |
| DeepSeekMoE: Towards Ultimate Expert Specialization |
2024-01 |
2401.06066 |
细粒度专家 + 共享专家,贯穿 V2/V3 |
| Let the Expert Stick to His Last(ESFT) |
2024-07 |
2407.01906 |
专家特化微调,省 90% 存储 |
| Auxiliary-Loss-Free Load Balancing for MoE |
2024-08 |
2408.15664 |
无辅助损失的 MoE 负载均衡 |
| Fire-Flyer AI-HPC |
2024-08 |
2408.14158 |
万卡 A100 软硬件协同,降本 50% |
| Native Sparse Attention(NSA) |
2025-02 |
2502.11089 |
硬件对齐、可原生训练的稀疏注意力 |
| Insights into DeepSeek-V3(ISCA’25) |
2025-05 |
2505.09343 |
V3 训练的硬件-模型协同设计反思 |
| mHC: Manifold-Constrained Hyper-Connections ⭐ |
2025-12 |
2512.24880 |
流形约束超连接,稳定残差扩展(V4 采用) |
| Conditional Memory via Scalable Lookup(Engram) ⭐ |
2026-01 |
2601.07372 |
条件记忆,N-gram 式 O(1) 查表,新的稀疏轴 |
| DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference ⭐ |
2026-02 |
2602.21548 |
破解 agentic 推理的 KV-Cache 存储带宽瓶颈 |
四、数学
| 论文 |
时间 |
链接 |
一句话核心 |
| DeepSeekMath |
2024-02 |
2402.03300 |
首提 GRPO(后被 R1 沿用) |
| DeepSeekMath-V2: Towards Self-Verifiable Math Reasoning |
2025-11 |
2511.22570 |
自验证式数学推理 |
五、代码
| 论文 |
时间 |
链接 |
一句话核心 |
| DeepSeek-Coder |
2024-01 |
2401.14196 |
1.3B–33B,项目级代码 + FIM |
| DeepSeek-Coder-V2 |
2024-06 |
2406.11931 |
MoE 代码模型,逼近闭源 |
六、定理证明(Lean)
| 论文 |
时间 |
链接 |
一句话核心 |
| DeepSeek-Prover |
2024-05 |
2405.14333 |
大规模合成 Lean 4 证明数据 |
| DeepSeek-Prover-V1.5 |
2024-08 |
2408.08152 |
RMaxTS(蒙特卡洛树搜索变体) |
| DeepSeek-Prover-V2 |
2025-04 |
2504.21801 |
子目标分解 + RL |
七、多模态 / 视觉 / OCR
| 论文 |
时间 |
链接 |
一句话核心 |
| DeepSeek-VL |
2024-03 |
2403.05525 |
真实场景视觉-语言理解 |
| Janus |
2024-10 |
2410.13848 |
解耦视觉编码,理解/生成统一 |
| JanusFlow |
2024-11 |
2411.07975 |
融合自回归与 rectified flow |
| DeepSeek-VL2 |
2024-12 |
2412.10302 |
MoE 视觉-语言模型 |
| Janus-Pro |
2025-01 |
2501.17811 |
Janus 数据 + 模型双扩展 |
| DeepSeek-OCR: Contexts Optical Compression |
2025-10 |
2510.18234 |
用「光学压缩」承载长上下文 |
| DeepSeek-OCR 2: Visual Causal Flow ⭐ |
2026-01 |
2601.20552 |
DeepEncoder V2,视觉 token 因果重排 |
附注
- 模型发布但无独立论文:DeepSeek-V3.1 / V3.1-Terminus、R1-0528 等属版本迭代发布。
- † 合作署名:CodeI/O(HKUST-NLP)、Engram(北大)、DualPath(北大 / 清华)均由 DeepSeek-AI 参与。
- 未纳入:DreamCraft3D(2310.16818,非 DeepSeek 论文,部分三方清单误收);Open-Source Week 的 FlashMLA / DeepGEMM / DualPipe / EPLB / 3FS 等为开源代码库而非论文。