Kimi 系列论文阅读清单

发表于2026-05-31|更新于2026-06-01|学习笔记

Kimi 系列论文清单

截至 2026-05 整理。Moonshot AI（月之暗面）的工作集中在 RL 推理、万亿参数 MoE、Agentic、线性/块注意力与高效推理系统 几条线上。arXiv 编号均已逐条核对。

概览

论文总数：10 篇
时间跨度：2024-06 ～ 2026-04
三条方向：基础与推理模型 / 多模态 / 架构与系统

一、基础与推理模型

论文	时间	链接	一句话核心
Kimi k1.5: Scaling Reinforcement Learning with LLMs	2025-01	2501.12599	用 RL 扩展推理能力，长/短思维链
Kimi K2: Open Agentic Intelligence	2025-07	2507.20534	1T MoE（激活 32B），MuonClip 稳定训练，主打 agentic

二、多模态

论文	时间	链接	一句话核心
Kimi-VL Technical Report	2025-04	2504.07491	MoE 视觉-语言模型，仅 2.8B 激活做多模态推理
Kimi-Audio Technical Report	2025-04	2504.18425	通用音频基座，识别/理解/对话/生成统一

三、架构与系统（注意力 / 优化器 / 推理）

论文	时间	链接	一句话核心
Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving	2024-06	2407.00079	Kimi 的推理底座，KVCache 中心化、PD 分离（FAST’25 最佳论文）
Muon is Scalable for LLM Training（Moonlight）	2025-02	2502.16982	Muon 优化器规模化，~2× 于 AdamW 的算力效率；含 Moonlight 16B
MoBA: Mixture of Block Attention for Long-Context LLMs	2025-02	2502.13189	把 MoE 思路用到注意力，长上下文高效
Kimi Linear: An Expressive, Efficient Attention Architecture	2025-10	2510.26692	Kimi Delta Attention（KDA），KV cache 降 75%，1M 解码 6× 吞吐
Attention Residuals（AttnRes）	2026-03	2603.15031	用「深度方向 softmax 注意力」替代固定残差累加，修正 PreNorm 稀释；在 Kimi Linear 上验证
Prefill-as-a-Service（PrfaaS）	2026-04	2604.15039	跨数据中心 prefill/decode 解耦、KVCache 走以太网传输（Mooncake 的延续）

附注

仅模型 / 发布、无独立论文：Kimi K2.5、K2.6、Kimi K2 Thinking 等为 K2 的迭代 / 推理增强版本；Kimi-Researcher 为 agentic 产品发布。
易混淆：O-Researcher（2601.03743）并非 Moonshot 论文，作者为其他团队，未纳入。
Muon 优化器、Mooncake / PrfaaS 推理系统虽非「模型」，但是 Kimi 体系的核心技术底座，故纳入。

文章作者: Bolin Chen

文章链接: https://baisen.site/2026/05/31/kimi-papers-list/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Baisen's Blog！

todolist 大模型论文清单 Kimi Moonshot AI

相关推荐

MiniMax 系列论文阅读清单

Qwen 系列论文阅读清单

DeepSeek 系列论文阅读清单

GPT 列技术报告与论文清单

投机采样 / 投机解码：原理推导与论文清单

Muon 优化器：它怎么做、为什么有效，以及哪些大模型在用