Context-Folding 相关论文精读清单
Context-Folding 相关论文精读清单
截至 2026-06。围绕长程(long-horizon)LLM Agent 的"上下文折叠"展开:以 Context-Folding(2510.11967) 为核心,整理 Fold 家族(AgentFold / FoldAct / U-Fold)与相邻的上下文压缩/管理方法,并给出跨论文的技术对比与脉络。
所有 arXiv 编号、关键数字均逐条核对原文;论文未明确给出的标注"未提及"。带 ⚠️ 的为易混淆/需考据之处,已标注依据。
概览
- 核心:1 篇(Context-Folding,提出 branch-and-fold + RL 框架 FoldGRPO)
- Fold 家族:3 篇(AgentFold、FoldAct、U-Fold)
- 相邻方法:上下文压缩/驱逐 4 篇(ACON、Active Context Compression、AdaCoM、CWL)+ 上下文管理(非压缩)2 篇(Self-Manager、Recursive Language Models)
- 时间跨度:2025-10 ~ 2026-06
- 核心问题:长程任务下,Agent 把全部交互历史线性堆进单一上下文会**饱和(context saturation)**且算力二次增长;"折叠"让 Agent 在任务执行过程中主动压缩工作上下文,只保留对后续推理有用的产出。
问题背景:长程 Agent 的上下文困境
主流 ReAct 范式把每一步的"推理–动作–观测"三元组线性累积进同一上下文。随任务步数(horizon)增长,带来两类问题:
- 性能退化:超长上下文中模型难以利用相关信息(“lost in the middle”);原始 web/工具输出的噪声过多,干扰对关键信息的利用,导致次优动作。
- 效率低下:注意力的二次复杂度 + KV-cache 随长度增长的开销。
已有两条扩展路线各有缺陷:
- 摘要式(summarization)压缩:上下文将满时触发事后摘要。会打断推理流,且在任意点不可逆地丢弃细节。
- 多智能体(multi-agent)委派:把子任务分派给专门 Agent 以隔离上下文。但依赖手工设计、问题特定的 workflow,难泛化、难端到端优化。
折叠(folding) 的核心思想:把"何时压缩、压缩哪段、保留什么"变成 Agent 可学习的显式技能,并尽量对齐到子任务边界——只在一段推理的效用兑现后才将其压缩为简洁摘要。
一、全景与时间线
| 论文 | 时间 | arXiv | 机构 | 一句话核心 |
|---|---|---|---|---|
| Context-Folding(核心) | 2025-10 | 2510.11967 | ByteDance Seed / CMU / Stanford | branch 进子轨迹、return 时折叠为摘要;RL 框架 FoldGRPO,active context 小 10× |
| AgentFold | 2025-10 | 2510.24699 | Tongyi Lab, Alibaba | 每步产出多尺度折叠指令(细粒度凝练 / 深度整合);亚线性 token 增长,仅 SFT |
| FoldAct | 2025-12 | 2512.22733 | HKUST / Duke Kunshan / Microsoft AI | 指出"摘要改变未来观测分布→非平稳",用分离损失+一致性损失稳定 RL,训练提速 5.19× |
| U-Fold | 2026-01 | 2601.18285 | Zhejiang Univ. / Tongyi / Westlake | 意图感知动态折叠,面向用户中心多轮;持续摘要 + 显式 to-do list |
| ACON | 2025-10 | 2510.00615 | Microsoft | 在自然语言空间优化压缩准则并蒸馏到小模型;峰值 token −26~54% |
| Active Context Compression (Focus) | 2026-01 | 2601.07190 | Nikhil Verma | Agent 自主"巩固+剪枝"历史;⚠️ 仅 N=5、Haiku 4.5 的 PoC |
| AdaCoM | 2026-05 | 2605.30785 | RUC 等 | 训练外置控制器管理"冻结 Agent"的上下文(端到端 RL) |
| Beyond Compaction (CWL) | 2026-06 | 2606.11213 | Semenov, Dorofeev | 基于依赖图的语义驱逐而非摘要/截断 |
| Self-Manager | 2026-01 | 2601.17879 | UCAS / ModelBest 等 | 并行 Agent loop + 子线程隔离上下文(管理而非压缩) |
| Recursive Language Models | 2025-12 | 2512.24601 | MIT | 把长 prompt 当外部环境递归自调用处理(约 100× 上下文) |
⚠️ Fold 家族中,AgentFold / FoldAct / U-Fold 均未以
2510.11967编号直接引用核心 Context-Folding(详见第六节)。
二、核心论文精读:Context-Folding
- arXiv:2510.11967(v1,2025-10-13)|作者:Weiwei Sun, Miao Lu 等|机构:ByteDance Seed + CMU + Stanford|已投 ICLR 2026(OpenReview
JaLXQnA2wi)|项目页 context-folding.github.io|代码 sunnweiwei/FoldAgent
核心机制:branch-and-fold
Agent 从求解问题 的 main thread 出发,用两个专用工具主动管理上下文:
branch(description, prompt):从主线分叉,开启独立工作上下文处理子任务 。return(message):折叠该分支内产生的上下文并回到主线,仅追加message给出的产出摘要。
分支内的中间步骤(branch 与 return 之间的所有 action–observation 对)被折叠移除——token 密集型操作(web 检索、代码库探索)卸载进分支,主线只保留关键发现。
形式化上,给定轨迹 ,ReAct 把全历史拼入上下文,而 Context-Folding 为:
其中 是 context manager,把 branch–return 区间折叠掉。例如(两个分支):
推理时维护 KV-cache,return 时把 cache 回滚到 branch 处,因此折叠在推理上高效。具体实例化为 plan–execution 框架:Planning State 在主线做规划、抑制 token 密集工具;Execution State 在分支内完成子任务、禁止嵌套 branch。
与多智能体的关系:可视为多智能体的特例,但 sub-agent 即时创建、共享同一上下文前缀(对 KV-cache 友好)、主子交替执行;相对摘要式方法,它是"可学习的、对齐子任务边界的摘要机制"。
FoldGRPO(⚠️ 即 ICLR 版的 FoldPO)
RL 方法在 arXiv 版称 FoldGRPO(Folded-context GRPO),ICLR/OpenReview 版改名 FoldPO,指同一方法。它在 GRPO 上做两点改造:训练时按式 折叠上下文 + 稠密 token 级 process reward。目标函数(节选优势项):
其中 为可验证的最终奖励(RLVR), 为 token 级 process reward(仅优化 LLM 生成的 token,工具观测 token 被 mask)。Process reward 解决两类失败模式——主线不折叠耗尽预算、子任务完成后不 return:
| Process Reward | 触发条件 | 取值 |
|---|---|---|
| Unfolded token penalty | 主线上下文超过工作上限 50% 时,对主线中非 branch 创建回合的 token | −1 |
| Out-scope penalty | 用 GPT-5-nano 判定分支做了子任务范围外的动作 | −0.2 |
| Failure penalty | 失败的工具调用回合内 token | −1 |
训练与结果
- 基座:Seed-OSS-36B-Instruct(⚠️ 非 Qwen;Qwen 仅作 BrowseComp 的 retriever 与对比基线)。RL 框架 VeRL;LLM 单次上下文 32K,最多 10 个 branch(理论上限 327,680 token);训练约 50 步。
- 基准:BrowseComp-Plus(Deep Research,N=150)、SWE-Bench Verified(N=500)。
- 主结果:Folding Agent + FoldGRPO 取得 BrowseComp-Plus 0.620 / SWE-Bench Verified 0.580(Pass@1),仅用 32K active context 即超过需要 327K 上下文窗口的 ReAct 基线,并显著优于摘要式方法,可比拟 100B+ 大模型 Agent。
- 增益拆解:RL 较未训练的折叠版绝对提升 +20.0%(BrowseComp)/ +8.8%(SWE-Bench);FoldGRPO 较普通 GRPO 再 +7.7% / +1.6%。
- "10× 更小"依据:FoldGRPO 把主线轨迹压到约 8K token,而总处理量 >100K token,即 >90% 上下文压缩;案例中 4 个 branch 把 107K token 压到约 6.5K。
- 泛化:把 50 个 easy 问题复合后,虽训练时最多 10 branch,求解时自适应平均用 32.6 个 branch。
局限:折叠训练需把分支保持为分离的因果条件序列,与现有框架(VeRL)不直接兼容;并行分支收益不明确;未来方向是多层折叠(fold 本身可被再 fold)。
三、Fold 家族
AgentFold — 每步多尺度折叠
- arXiv:2510.24699(v1,2025-10)|Tongyi Lab, Alibaba(第一作者有 SJTU 背景)
动机:ReAct 累积原始历史→噪声饱和;每步定长摘要全历史→不可逆丢细节。受人类回溯性整合(retrospective consolidation) 启发,把上下文当作动态认知工作区主动管理。
机制:第 步上下文为四元组 ——不变问题 、工具 schema 、Multi-Scale State Summaries 、Latest Interaction (上一步完整原文)。每步 deep reasoning 并发产出折叠指令 + 工具调用,折叠指令为 {"range":[k,t-1],"summary":σ},由起点 决定两种尺度:
- Granular Condensation():把最近一次交互凝练为新摘要块追加到序列尾,保留细粒度细节;
- Deep Consolidation():撤回区间 内所有摘要块,用单一摘要替换 ,抽象掉整段多步子任务(如把一段失败的探索路径折成一句结论)。
何时用哪种折叠,由轨迹数据上的 SFT 学习(仅 SFT,无 RL)。基座 Qwen3-30B-A3B-Instruct-2507(30B 总参 / 3B 激活),数据由专门的 Fold-Generator 流水线 + 拒绝采样合成,问题集同 WebSailor。
结果:BrowseComp 36.2、BrowseComp-ZH 47.3、WideSearch 62.1、GAIA 67.0,以 30B-A3B 超过/匹敌 DeepSeek-V3.1-671B 等更大模型。亚线性 token 增长:100 轮内上下文从约 3.5k 增至约 7k(不到翻倍),第 100 轮比 ReAct 小约 84k token(92%)、约省 7GB 显存,可扩展到 500 轮仍 <20k;对比 GLM-4.5 因 append-only 在 64 轮后饱和失败。平均上下文量化指标:
与核心 Context-Folding 的差异:AgentFold 是单轨迹内、每步、多尺度的回溯折叠,无显式 branch 结构;Context-Folding 是按子任务分支边界的 branch-and-fold。AgentFold 未引用 2510.11967。
FoldAct — 将折叠的"非平稳性"作为核心问题
- arXiv:2512.22733(v1,2025-12-28)|HKUST / Duke Kunshan / Microsoft AI
核心洞见:现有折叠把 summary 当普通 action,忽视了 summary 会改变 Agent 未来的 observation space,导致一个 policy-dependent、非平稳的观测分布,违反 policy gradient 的平稳性假设。由此三个挑战:C1 梯度稀释(summary token 占比小→credit assignment 失衡)、C2 自条件化(策略→摘要→观测的恶性循环致 training collapse)、C3 计算开销。
方法(基于 PPO,三个核心组件):
- Separated Loss:对 summary token 与 action token 分别算 PPO loss,避免梯度稀释;配 summary reward(幻觉 −0.2 / 保留 +0.2)。
- Full Context Consistency Loss:最小化压缩上下文与完整历史输出分布的 KL,抑制 distribution shift:
- Selective Segment Training:按 dropout 概率只在部分 turn 算 loss,降开销。
结果:WebWalker 46.1、GAIA 45.0、BrowseComp-en 8.3 / zh 15.2、XBench 32.9;加一致性损失时训练全程稳定,不加则在 step 173 collapse。训练提速 5.19×( + 一致性损失,933.7 vs 4846.7 s/step),峰值显存 −8%(full-context 训练 OOM)。
U-Fold — 面向用户中心场景的意图感知折叠
- arXiv:2601.18285(v1,2026-01-26)|Zhejiang Univ. / Tongyi / Westlake
动机:现有折叠多为 single-query / single-intent 设计,在多轮用户中心对话中会丢失细粒度约束、且无法追踪意图漂移(intent drift)。
方法(保留完整历史 + 每轮产出压缩工作上下文):
- Conversation Summarization Module :产出追踪"目标/约束/偏好演变"的摘要 + 显式 to-do list;
- Dynamic Data Extraction Module :过滤工具输出,仅留对当前待办有用的信息;
- Agent 基于 而非完整历史生成动作。三原则:Parsimony / Sufficiency / Dynamic。是否用 RL:未提及。
结果:τ-bench / τ²-bench / VitaBench 上,长上下文设置较 ReAct 71.4% 胜率;较 IterResearch +27.0%、较 ReSum +15.8%。Qwen3-4B 上提升有限(小模型作摘要器/抽取器能力受限)。
四、相邻的上下文管理 / 压缩方法
确属上下文压缩 / 驱逐
- ACON|2510.00615(Microsoft)——在自然语言空间优化"压缩准则":基于失败分析迭代改写 guidelines,再把 compressor 蒸馏到小模型,无需微调主模型。峰值 token −26~54%,让小模型当长程 Agent 最高 +46%。走 prompt 空间路线,常与走 RL 的 Context-Folding 互为对照。
- **Active Context Compression (Focus)**|2601.07190——Agent 自主"巩固+剪枝"历史,解决 Context Bloat。token −22.7% 而精度不降。⚠️ 仅 N=5、用 Claude Haiku 4.5 的 proof-of-concept,引用数字须标注样本量。
- AdaCoM|2605.30785——训练一个外置 LLM 控制器去管理"冻结 Agent"的上下文(端到端 RL),适配闭源 Agent;提出 Fidelity-Reliability 权衡。区别于 Fold 家族"Agent 自带折叠"。
- Beyond Compaction (CWL)|2606.11213——提出 Context Window Lifecycle,基于依赖图的语义驱逐/删除,而非摘要或按新近度截断。
上下文管理(非压缩)
- Self-Manager|2601.17879(UCAS / ModelBest 等)——并行 Agent loop:主线程经 Thread Control Blocks 异步创建多个独立隔离上下文的子线程。手段是多线程并行 + 上下文隔离(接近 sub-agent 委派),不是压缩本身。
- Recursive Language Models|2512.24601(MIT,Zhang/Kraska/Khattab)——把长 prompt 当外部环境,程序化检视并递归调用自身处理片段,可处理约 100× 上下文窗口的输入;较 compaction 中位 +26%。偏"递归分解/外部化"而非在主轨迹内学折叠。
五、技术对比与脉络
折叠的两种范式
- Branch-and-fold(子任务分支折叠) —— Context-Folding。Agent 显式
branch进子轨迹、return时折叠;压缩对齐子任务边界,用 RL(FoldGRPO)学习。 - Step-wise multi-scale fold(逐步多尺度折叠) —— AgentFold。每步对累积摘要发一条折叠指令,无显式分支;用 SFT 学习。
FoldAct 与 U-Fold 是在此之上的细化:前者解决折叠引入的训练非平稳性(让 RL 可稳定训练),后者把折叠推广到多轮、意图演化的用户中心场景。
横向对比
| 论文 | 折叠粒度 / 触发 | 训练方式 | 基座 | 代表结果 | 上下文节省 |
|---|---|---|---|---|---|
| Context-Folding | 子任务 branch 边界 | RL(FoldGRPO) | Seed-OSS-36B | BC-Plus 0.620 / SWEB-V 0.580 | 主线 ~8K,>90% |
| AgentFold | 每步多尺度(凝练/整合) | SFT | Qwen3-30B-A3B | BrowseComp 36.2 | 100 轮 ~7K,省 92% |
| FoldAct | 每步摘要(重稳定性) | RL(PPO) | 未单列 | WebWalker 46.1 | 压缩比 0.25~0.65 |
| U-Fold | 每个 user turn(意图感知) | 未提及 | Qwen3 等多模型 | 较 ReAct 71.4% 胜率 | 增长显著放缓 |
与概念邻居的关系
- ReAct(基线):全部原始历史线性累积→饱和;折叠以它为主要对照,在保持/超过成功率的同时把 active context 缩约 10×。
- 摘要式 compaction(如 LangChain DeepAgents):上下文将满时整体摘要/截断,易不可逆丢细节;折叠按子任务边界、可学习地压缩,论文报告优于此类。
- 子智能体委派 / 多智能体:把子任务派给独立 Agent / 独立上下文(Self-Manager 即此路线);折叠在单 Agent 内部用"分支→折叠摘要"达到类似隔离,无需真正分裂 Agent。
- 长期记忆系统(MemGPT 类):靠外部记忆读写/检索把信息移出上下文、需要时取回,管的是跨会话持久知识;折叠管的是单条任务内的 working context,关注点不同。
六、辨析与考据
科学严谨要求标注以下易错点:
- FoldGRPO = FoldPO:同一 RL 方法,arXiv 版称 FoldGRPO、ICLR/OpenReview 版称 FoldPO。
- ⚠️ venue 不一致:Context-Folding 的 GitHub README 标注 “ICML’26”,但 OpenReview 记录为 ICLR 2026,疑 README 笔误,以 OpenReview 为准。
- 核心基座非 Qwen:Context-Folding 用 Seed-OSS-36B-Instruct;Qwen 仅作 retriever / 对比基线。
- 引用关系:AgentFold / FoldAct / U-Fold 均未以
2510.11967编号直接引用核心 Context-Folding,多以 ReSum / IterResearch / AgentFold 等并列对比——"Fold 家族"是主题归类,非显式引用谱系。 - 样本量警示:Active Context Compression(2601.07190)仅 N=5、Haiku 4.5,属 PoC,勿与 Fold 家族同等看待。
- 分类边界:Self-Manager(并行/隔离)、Recursive Language Models(递归/外部化)严格说属"上下文管理"而非"上下文压缩"。
- 仓库名 ≠ 论文名:Context-Folding 的代码仓库为
sunnweiwei/FoldAgent。
阅读建议
- 先读核心:Context-Folding(2510.11967),建立 branch-and-fold + RL(FoldGRPO)的完整框架。
- 对照范式:AgentFold(2510.24699) 看"每步多尺度折叠"的另一条路线(且仅 SFT)。
- 关注 RL 训练稳定性:FoldAct(2512.22733) 的"非平稳观测"洞见最具方法论价值。
- 关注落地场景:U-Fold(2601.18285)(用户中心多轮)。
- 横向补全:ACON / AdaCoM / CWL(压缩与驱逐)+ Self-Manager / RLM(管理与递归)。
本文为公开论文的客观整理与技术综述,数字与结论以各论文原文为准;多篇为 2025Q4–2026 的较新工作,更新版本中细节可能微调。










