Kimi 系列论文清单

截至 2026-05 整理。Moonshot AI(月之暗面)的工作集中在 RL 推理、万亿参数 MoE、Agentic、线性/块注意力与高效推理系统 几条线上。arXiv 编号均已逐条核对。

概览

  • 论文总数:10 篇
  • 时间跨度:2024-06 ~ 2026-04
  • 三条方向:基础与推理模型 / 多模态 / 架构与系统

一、基础与推理模型

论文 时间 链接 一句话核心
Kimi k1.5: Scaling Reinforcement Learning with LLMs 2025-01 2501.12599 用 RL 扩展推理能力,长/短思维链
Kimi K2: Open Agentic Intelligence 2025-07 2507.20534 1T MoE(激活 32B),MuonClip 稳定训练,主打 agentic

二、多模态

论文 时间 链接 一句话核心
Kimi-VL Technical Report 2025-04 2504.07491 MoE 视觉-语言模型,仅 2.8B 激活做多模态推理
Kimi-Audio Technical Report 2025-04 2504.18425 通用音频基座,识别/理解/对话/生成统一

三、架构与系统(注意力 / 优化器 / 推理)

论文 时间 链接 一句话核心
Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving 2024-06 2407.00079 Kimi 的推理底座,KVCache 中心化、PD 分离(FAST’25 最佳论文)
Muon is Scalable for LLM Training(Moonlight) 2025-02 2502.16982 Muon 优化器规模化,~2× 于 AdamW 的算力效率;含 Moonlight 16B
MoBA: Mixture of Block Attention for Long-Context LLMs 2025-02 2502.13189 把 MoE 思路用到注意力,长上下文高效
Kimi Linear: An Expressive, Efficient Attention Architecture 2025-10 2510.26692 Kimi Delta Attention(KDA),KV cache 降 75%,1M 解码 6× 吞吐
Attention Residuals(AttnRes) 2026-03 2603.15031 用「深度方向 softmax 注意力」替代固定残差累加,修正 PreNorm 稀释;在 Kimi Linear 上验证
Prefill-as-a-Service(PrfaaS) 2026-04 2604.15039 跨数据中心 prefill/decode 解耦、KVCache 走以太网传输(Mooncake 的延续)

附注

  • 仅模型 / 发布、无独立论文:Kimi K2.5、K2.6、Kimi K2 Thinking 等为 K2 的迭代 / 推理增强版本;Kimi-Researcher 为 agentic 产品发布。
  • 易混淆:O-Researcher(2601.03743)并非 Moonshot 论文,作者为其他团队,未纳入。
  • Muon 优化器、Mooncake / PrfaaS 推理系统虽非「模型」,但是 Kimi 体系的核心技术底座,故纳入。