Kimi 系列论文清单
截至 2026-05 整理。Moonshot AI(月之暗面)的工作集中在 RL 推理、万亿参数 MoE、Agentic、线性/块注意力与高效推理系统 几条线上。arXiv 编号均已逐条核对。
概览
- 论文总数:10 篇
- 时间跨度:2024-06 ~ 2026-04
- 三条方向:基础与推理模型 / 多模态 / 架构与系统
一、基础与推理模型
| 论文 |
时间 |
链接 |
一句话核心 |
| Kimi k1.5: Scaling Reinforcement Learning with LLMs |
2025-01 |
2501.12599 |
用 RL 扩展推理能力,长/短思维链 |
| Kimi K2: Open Agentic Intelligence |
2025-07 |
2507.20534 |
1T MoE(激活 32B),MuonClip 稳定训练,主打 agentic |
二、多模态
| 论文 |
时间 |
链接 |
一句话核心 |
| Kimi-VL Technical Report |
2025-04 |
2504.07491 |
MoE 视觉-语言模型,仅 2.8B 激活做多模态推理 |
| Kimi-Audio Technical Report |
2025-04 |
2504.18425 |
通用音频基座,识别/理解/对话/生成统一 |
三、架构与系统(注意力 / 优化器 / 推理)
| 论文 |
时间 |
链接 |
一句话核心 |
| Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving |
2024-06 |
2407.00079 |
Kimi 的推理底座,KVCache 中心化、PD 分离(FAST’25 最佳论文) |
| Muon is Scalable for LLM Training(Moonlight) |
2025-02 |
2502.16982 |
Muon 优化器规模化,~2× 于 AdamW 的算力效率;含 Moonlight 16B |
| MoBA: Mixture of Block Attention for Long-Context LLMs |
2025-02 |
2502.13189 |
把 MoE 思路用到注意力,长上下文高效 |
| Kimi Linear: An Expressive, Efficient Attention Architecture |
2025-10 |
2510.26692 |
Kimi Delta Attention(KDA),KV cache 降 75%,1M 解码 6× 吞吐 |
| Attention Residuals(AttnRes) |
2026-03 |
2603.15031 |
用「深度方向 softmax 注意力」替代固定残差累加,修正 PreNorm 稀释;在 Kimi Linear 上验证 |
| Prefill-as-a-Service(PrfaaS) |
2026-04 |
2604.15039 |
跨数据中心 prefill/decode 解耦、KVCache 走以太网传输(Mooncake 的延续) |
附注
- 仅模型 / 发布、无独立论文:Kimi K2.5、K2.6、Kimi K2 Thinking 等为 K2 的迭代 / 推理增强版本;Kimi-Researcher 为 agentic 产品发布。
- 易混淆:O-Researcher(2601.03743)并非 Moonshot 论文,作者为其他团队,未纳入。
- Muon 优化器、Mooncake / PrfaaS 推理系统虽非「模型」,但是 Kimi 体系的核心技术底座,故纳入。