西郊有密林,助君出重围
近况总结
DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
DeepSeek-V4 技术报告的阅读笔记
Muon 优化器:它怎么做、为什么有效,以及哪些大模型在用
在谱范数意义下做最速下降,保证各特征步长统一。
Kimi 系列论文阅读清单
Moonshot AI(月之暗面)Kimi 系列公开论文 / 技术报告系统整理
投机采样 / 投机解码:原理推导与论文清单
用拒绝采样把「便宜草稿模型的猜测」无损校正为「目标模型的输出」——投机解码的原理推导、贪心与采样两种情形的证明,以及相关论文系统整理。
MiniMax 系列论文阅读清单
MiniMax(稀宇科技)公开论文 + Lightning Attention 技术谱系系统整理
GPT 列技术报告与论文清单
OpenAI GPT 系列从 GPT-1 到 GPT-5.5 的论文 / 技术报告 / System Card 系统整理
Qwen 系列论文阅读清单
阿里巴巴 Qwen(通义千问)团队从 2023 年至今全部公开论文 / 技术报告的系统整理
DeepSeek 系列论文阅读清单
DeepSeek(深度求索)从 2024 年至今全部公开论文 / 技术报告的系统整理
Farewell to Item IDs: Unlocking the Scaling Potential of Large Ranking Models via Semantic Tokens
在判别式模型中将 item ID 完全替换为 semantic token,并解决"替换后性能下降"的三个根本原因:缺少协同信号、记忆能力不足、忽略 SID token 间结构。










