Context-Folding 相关论文精读清单

截至 2026-06。围绕长程(long-horizon)LLM Agent 的"上下文折叠"展开:以 Context-Folding(2510.11967) 为核心,整理 Fold 家族(AgentFold / FoldAct / U-Fold)与相邻的上下文压缩/管理方法,并给出跨论文的技术对比与脉络。

所有 arXiv 编号、关键数字均逐条核对原文;论文未明确给出的标注"未提及"。带 ⚠️ 的为易混淆/需考据之处,已标注依据。

概览

  • 核心:1 篇(Context-Folding,提出 branch-and-fold + RL 框架 FoldGRPO)
  • Fold 家族:3 篇(AgentFold、FoldAct、U-Fold)
  • 相邻方法:上下文压缩/驱逐 4 篇(ACON、Active Context Compression、AdaCoM、CWL)+ 上下文管理(非压缩)2 篇(Self-Manager、Recursive Language Models)
  • 时间跨度:2025-10 ~ 2026-06
  • 核心问题:长程任务下,Agent 把全部交互历史线性堆进单一上下文会**饱和(context saturation)**且算力二次增长;"折叠"让 Agent 在任务执行过程中主动压缩工作上下文,只保留对后续推理有用的产出。

问题背景:长程 Agent 的上下文困境

主流 ReAct 范式把每一步的"推理–动作–观测"三元组线性累积进同一上下文。随任务步数(horizon)增长,带来两类问题:

  1. 性能退化:超长上下文中模型难以利用相关信息(“lost in the middle”);原始 web/工具输出的噪声过多,干扰对关键信息的利用,导致次优动作。
  2. 效率低下:注意力的二次复杂度 + KV-cache 随长度增长的开销。

已有两条扩展路线各有缺陷:

  • 摘要式(summarization)压缩:上下文将满时触发事后摘要。会打断推理流,且在任意点不可逆地丢弃细节
  • 多智能体(multi-agent)委派:把子任务分派给专门 Agent 以隔离上下文。但依赖手工设计、问题特定的 workflow,难泛化、难端到端优化。

折叠(folding) 的核心思想:把"何时压缩、压缩哪段、保留什么"变成 Agent 可学习的显式技能,并尽量对齐到子任务边界——只在一段推理的效用兑现后才将其压缩为简洁摘要。


一、全景与时间线

论文 时间 arXiv 机构 一句话核心
Context-Folding(核心) 2025-10 2510.11967 ByteDance Seed / CMU / Stanford branch 进子轨迹、return 时折叠为摘要;RL 框架 FoldGRPO,active context 小 10×
AgentFold 2025-10 2510.24699 Tongyi Lab, Alibaba 每步产出多尺度折叠指令(细粒度凝练 / 深度整合);亚线性 token 增长,仅 SFT
FoldAct 2025-12 2512.22733 HKUST / Duke Kunshan / Microsoft AI 指出"摘要改变未来观测分布→非平稳",用分离损失+一致性损失稳定 RL,训练提速 5.19×
U-Fold 2026-01 2601.18285 Zhejiang Univ. / Tongyi / Westlake 意图感知动态折叠,面向用户中心多轮;持续摘要 + 显式 to-do list
ACON 2025-10 2510.00615 Microsoft 在自然语言空间优化压缩准则并蒸馏到小模型;峰值 token −26~54%
Active Context Compression (Focus) 2026-01 2601.07190 Nikhil Verma Agent 自主"巩固+剪枝"历史;⚠️ 仅 N=5、Haiku 4.5 的 PoC
AdaCoM 2026-05 2605.30785 RUC 等 训练外置控制器管理"冻结 Agent"的上下文(端到端 RL)
Beyond Compaction (CWL) 2026-06 2606.11213 Semenov, Dorofeev 基于依赖图的语义驱逐而非摘要/截断
Self-Manager 2026-01 2601.17879 UCAS / ModelBest 等 并行 Agent loop + 子线程隔离上下文(管理而非压缩)
Recursive Language Models 2025-12 2512.24601 MIT 把长 prompt 当外部环境递归自调用处理(约 100× 上下文)

⚠️ Fold 家族中,AgentFold / FoldAct / U-Fold 均未以 2510.11967 编号直接引用核心 Context-Folding(详见第六节)。


二、核心论文精读:Context-Folding

核心机制:branch-and-fold

Agent 从求解问题 qqmain thread 出发,用两个专用工具主动管理上下文:

  • branch(description, prompt):从主线分叉,开启独立工作上下文处理子任务 qq'
  • return(message)折叠该分支内产生的上下文并回到主线,仅追加 message 给出的产出摘要。

分支内的中间步骤(branch 与 return 之间的所有 action–observation 对)被折叠移除——token 密集型操作(web 检索、代码库探索)卸载进分支,主线只保留关键发现

形式化上,给定轨迹 τ=(a1,o1,,aT,oT)\tau=(a_1,o_1,\dots,a_T,o_T),ReAct 把全历史拼入上下文,而 Context-Folding 为:

pθContext Fold(τq):=i[T]πθ(aiq, F(τ<i))p^{\text{Context Fold}}_\theta(\tau \mid q) := \prod_{i\in[T]} \pi_\theta\big(a_i \mid q,\ F(\tau_{<i})\big)

其中 FFcontext manager,把 branch–return 区间折叠掉。例如(两个分支):

F(a1,o1,a2,o2,a3,o3,a4branch 1,o4,a5,,a8branch 2,o8,a9,o9,a10,o10)(a1,o1,a2,o4,a5,o8,a9,o9,a10,o10)F(a_1,o_1,\underbrace{a_2,o_2,a_3,o_3,a_4}_{\text{branch 1}},o_4,\underbrace{a_5,\dots,a_8}_{\text{branch 2}},o_8,a_9,o_9,a_{10},o_{10}) \rightarrow (a_1,o_1,a_2,o_4,a_5,o_8,a_9,o_9,a_{10},o_{10})

推理时维护 KV-cache,return 时把 cache 回滚到 branch 处,因此折叠在推理上高效。具体实例化为 plan–execution 框架:Planning State 在主线做规划、抑制 token 密集工具;Execution State 在分支内完成子任务、禁止嵌套 branch

与多智能体的关系:可视为多智能体的特例,但 sub-agent 即时创建、共享同一上下文前缀(对 KV-cache 友好)、主子交替执行;相对摘要式方法,它是"可学习的、对齐子任务边界的摘要机制"。

FoldGRPO(⚠️ 即 ICLR 版的 FoldPO)

RL 方法在 arXiv 版称 FoldGRPO(Folded-context GRPO),ICLR/OpenReview 版改名 FoldPO,指同一方法。它在 GRPO 上做两点改造:训练时按式 F()F(\cdot) 折叠上下文 + 稠密 token 级 process reward。目标函数(节选优势项):

A^i,t=clip(Ri+Qi,t, 0, 1)mean({Ri})std({Ri})\hat{A}_{i,t} = \frac{\operatorname{clip}(R_i + Q_{i,t},\ 0,\ 1) - \operatorname{mean}(\{R_i\})}{\operatorname{std}(\{R_i\})}

其中 Ri{0,1}R_i\in\{0,1\} 为可验证的最终奖励(RLVR),Qi,tQ_{i,t} 为 token 级 process reward(仅优化 LLM 生成的 token,工具观测 token 被 mask)。Process reward 解决两类失败模式——主线不折叠耗尽预算、子任务完成后不 return:

Process Reward 触发条件 取值 Qi,tQ_{i,t}
Unfolded token penalty 主线上下文超过工作上限 50% 时,对主线中非 branch 创建回合的 token −1
Out-scope penalty 用 GPT-5-nano 判定分支做了子任务范围外的动作 −0.2
Failure penalty 失败的工具调用回合内 token −1

训练与结果

  • 基座Seed-OSS-36B-Instruct(⚠️ 非 Qwen;Qwen 仅作 BrowseComp 的 retriever 与对比基线)。RL 框架 VeRL;LLM 单次上下文 32K,最多 10 个 branch(理论上限 327,680 token);训练约 50 步。
  • 基准:BrowseComp-Plus(Deep Research,N=150)、SWE-Bench Verified(N=500)。
  • 主结果:Folding Agent + FoldGRPO 取得 BrowseComp-Plus 0.620 / SWE-Bench Verified 0.580(Pass@1),仅用 32K active context超过需要 327K 上下文窗口的 ReAct 基线,并显著优于摘要式方法,可比拟 100B+ 大模型 Agent。
  • 增益拆解:RL 较未训练的折叠版绝对提升 +20.0%(BrowseComp)/ +8.8%(SWE-Bench)FoldGRPO 较普通 GRPO+7.7% / +1.6%
  • "10× 更小"依据:FoldGRPO 把主线轨迹压到约 8K token,而总处理量 >100K token,即 >90% 上下文压缩;案例中 4 个 branch 把 107K token 压到约 6.5K。
  • 泛化:把 50 个 easy 问题复合后,虽训练时最多 10 branch,求解时自适应平均用 32.6 个 branch

局限:折叠训练需把分支保持为分离的因果条件序列,与现有框架(VeRL)不直接兼容;并行分支收益不明确;未来方向是多层折叠(fold 本身可被再 fold)。


三、Fold 家族

AgentFold — 每步多尺度折叠

  • arXiv2510.24699(v1,2025-10)|Tongyi Lab, Alibaba(第一作者有 SJTU 背景)

动机:ReAct 累积原始历史→噪声饱和;每步定长摘要全历史→不可逆丢细节。受人类回溯性整合(retrospective consolidation) 启发,把上下文当作动态认知工作区主动管理。

机制:第 tt 步上下文为四元组 Ct=(Q,T,St2,It1)C_t=(Q,\,T,\,S_{t-2},\,I_{t-1})——不变问题 QQ、工具 schema TTMulti-Scale State Summaries SSLatest Interaction II(上一步完整原文)。每步 deep reasoning 并发产出折叠指令 + 工具调用,折叠指令为 {"range":[k,t-1],"summary":σ},由起点 kk 决定两种尺度:

  • Granular Condensation(k=t1k=t-1:把最近一次交互凝练为新摘要块追加到序列尾,保留细粒度细节;
  • Deep Consolidation(k<t1k<t-1:撤回区间 [k,t1][k,t-1] 内所有摘要块,用单一摘要替换 sk,t1=σts_{k,t-1}=\sigma_t抽象掉整段多步子任务(如把一段失败的探索路径折成一句结论)。

何时用哪种折叠,由轨迹数据上的 SFT 学习(仅 SFT,无 RL)。基座 Qwen3-30B-A3B-Instruct-2507(30B 总参 / 3B 激活),数据由专门的 Fold-Generator 流水线 + 拒绝采样合成,问题集同 WebSailor。

结果:BrowseComp 36.2、BrowseComp-ZH 47.3、WideSearch 62.1、GAIA 67.0,以 30B-A3B 超过/匹敌 DeepSeek-V3.1-671B 等更大模型。亚线性 token 增长:100 轮内上下文从约 3.5k 增至约 7k(不到翻倍),第 100 轮比 ReAct 小约 84k token(92%)、约省 7GB 显存,可扩展到 500 轮仍 <20k;对比 GLM-4.5 因 append-only 在 64 轮后饱和失败。平均上下文量化指标:

At=1TtjTtTokenCount(Cj,t)A_t=\frac{1}{|\mathcal{T}_t|}\sum_{j\in\mathcal{T}_t}\operatorname{TokenCount}(C_{j,t})

与核心 Context-Folding 的差异:AgentFold 是单轨迹内、每步、多尺度的回溯折叠,无显式 branch 结构;Context-Folding 是按子任务分支边界的 branch-and-fold。AgentFold 未引用 2510.11967。

FoldAct — 将折叠的"非平稳性"作为核心问题

  • arXiv2512.22733(v1,2025-12-28)|HKUST / Duke Kunshan / Microsoft AI

核心洞见:现有折叠把 summary 当普通 action,忽视了 summary 会改变 Agent 未来的 observation space,导致一个 policy-dependent、非平稳的观测分布,违反 policy gradient 的平稳性假设。由此三个挑战:C1 梯度稀释(summary token 占比小→credit assignment 失衡)、C2 自条件化(策略→摘要→观测的恶性循环致 training collapse)、C3 计算开销

方法(基于 PPO,三个核心组件)

  • Separated Loss:对 summary token 与 action token 分别算 PPO loss,避免梯度稀释;配 summary reward(幻觉 −0.2 / 保留 +0.2)。
  • Full Context Consistency Loss:最小化压缩上下文与完整历史输出分布的 KL,抑制 distribution shift:

Lconsistency=Eτ[tKL(πθ(st)πθ(h0:t))]\mathcal{L}_{\text{consistency}}=\mathbb{E}_\tau\Big[\sum_t \operatorname{KL}\big(\pi_\theta(\cdot\mid s_t)\,\|\,\pi_\theta(\cdot\mid h_{0:t})\big)\Big]

  • Selective Segment Training:按 dropout 概率只在部分 turn 算 loss,降开销。

结果:WebWalker 46.1、GAIA 45.0、BrowseComp-en 8.3 / zh 15.2、XBench 32.9;加一致性损失时训练全程稳定,不加则在 step 173 collapse。训练提速 5.19×pdrop=0.5p_{\text{drop}}=0.5 + 一致性损失,933.7 vs 4846.7 s/step),峰值显存 −8%(full-context 训练 OOM)。

U-Fold — 面向用户中心场景的意图感知折叠

  • arXiv2601.18285(v1,2026-01-26)|Zhejiang Univ. / Tongyi / Westlake

动机:现有折叠多为 single-query / single-intent 设计,在多轮用户中心对话中会丢失细粒度约束、且无法追踪意图漂移(intent drift)

方法(保留完整历史 + 每轮产出压缩工作上下文)

  • Conversation Summarization Module Miπθc(Ci)M_i\sim\pi_{\theta_c}(\cdot\mid C_i):产出追踪"目标/约束/偏好演变"的摘要 + 显式 to-do list
  • Dynamic Data Extraction Module Diπθd(Mi,T1:i1)D_i\sim\pi_{\theta_d}(\cdot\mid M_i,T_{1:i-1}):过滤工具输出,仅留对当前待办有用的信息;
  • Agent 基于 (Mi,Di)(M_i,D_i) 而非完整历史生成动作。三原则:Parsimony / Sufficiency / Dynamic。是否用 RL:未提及

结果:τ-bench / τ²-bench / VitaBench 上,长上下文设置较 ReAct 71.4% 胜率;较 IterResearch +27.0%、较 ReSum +15.8%。Qwen3-4B 上提升有限(小模型作摘要器/抽取器能力受限)。


四、相邻的上下文管理 / 压缩方法

确属上下文压缩 / 驱逐

  • ACON2510.00615(Microsoft)——在自然语言空间优化"压缩准则":基于失败分析迭代改写 guidelines,再把 compressor 蒸馏到小模型,无需微调主模型。峰值 token −26~54%,让小模型当长程 Agent 最高 +46%。走 prompt 空间路线,常与走 RL 的 Context-Folding 互为对照。
  • **Active Context Compression (Focus)**|2601.07190——Agent 自主"巩固+剪枝"历史,解决 Context Bloat。token −22.7% 而精度不降。⚠️ 仅 N=5、用 Claude Haiku 4.5 的 proof-of-concept,引用数字须标注样本量。
  • AdaCoM2605.30785——训练一个外置 LLM 控制器去管理"冻结 Agent"的上下文(端到端 RL),适配闭源 Agent;提出 Fidelity-Reliability 权衡。区别于 Fold 家族"Agent 自带折叠"。
  • Beyond Compaction (CWL)2606.11213——提出 Context Window Lifecycle,基于依赖图的语义驱逐/删除,而非摘要或按新近度截断。

上下文管理(非压缩)

  • Self-Manager2601.17879(UCAS / ModelBest 等)——并行 Agent loop:主线程经 Thread Control Blocks 异步创建多个独立隔离上下文的子线程。手段是多线程并行 + 上下文隔离(接近 sub-agent 委派),不是压缩本身。
  • Recursive Language Models2512.24601(MIT,Zhang/Kraska/Khattab)——把长 prompt 当外部环境,程序化检视并递归调用自身处理片段,可处理约 100× 上下文窗口的输入;较 compaction 中位 +26%。偏"递归分解/外部化"而非在主轨迹内学折叠。

五、技术对比与脉络

折叠的两种范式

  1. Branch-and-fold(子任务分支折叠) —— Context-Folding。Agent 显式 branch 进子轨迹、return 时折叠;压缩对齐子任务边界,用 RL(FoldGRPO)学习。
  2. Step-wise multi-scale fold(逐步多尺度折叠) —— AgentFold。每步对累积摘要发一条折叠指令,无显式分支;用 SFT 学习。

FoldAct 与 U-Fold 是在此之上的细化:前者解决折叠引入的训练非平稳性(让 RL 可稳定训练),后者把折叠推广到多轮、意图演化的用户中心场景。

横向对比

论文 折叠粒度 / 触发 训练方式 基座 代表结果 上下文节省
Context-Folding 子任务 branch 边界 RL(FoldGRPO) Seed-OSS-36B BC-Plus 0.620 / SWEB-V 0.580 主线 ~8K,>90%
AgentFold 每步多尺度(凝练/整合) SFT Qwen3-30B-A3B BrowseComp 36.2 100 轮 ~7K,省 92%
FoldAct 每步摘要(重稳定性) RL(PPO) 未单列 WebWalker 46.1 压缩比 0.25~0.65
U-Fold 每个 user turn(意图感知) 未提及 Qwen3 等多模型 较 ReAct 71.4% 胜率 增长显著放缓

与概念邻居的关系

  • ReAct(基线):全部原始历史线性累积→饱和;折叠以它为主要对照,在保持/超过成功率的同时把 active context 缩约 10×。
  • 摘要式 compaction(如 LangChain DeepAgents):上下文将满时整体摘要/截断,易不可逆丢细节;折叠按子任务边界、可学习地压缩,论文报告优于此类。
  • 子智能体委派 / 多智能体:把子任务派给独立 Agent / 独立上下文(Self-Manager 即此路线);折叠在单 Agent 内部用"分支→折叠摘要"达到类似隔离,无需真正分裂 Agent。
  • 长期记忆系统(MemGPT 类):靠外部记忆读写/检索把信息移出上下文、需要时取回,管的是跨会话持久知识;折叠管的是单条任务内的 working context,关注点不同。

六、辨析与考据

科学严谨要求标注以下易错点:

  1. FoldGRPO = FoldPO:同一 RL 方法,arXiv 版称 FoldGRPO、ICLR/OpenReview 版称 FoldPO。
  2. ⚠️ venue 不一致:Context-Folding 的 GitHub README 标注 “ICML’26”,但 OpenReview 记录为 ICLR 2026,疑 README 笔误,以 OpenReview 为准。
  3. 核心基座非 Qwen:Context-Folding 用 Seed-OSS-36B-Instruct;Qwen 仅作 retriever / 对比基线。
  4. 引用关系:AgentFold / FoldAct / U-Fold 均未以 2510.11967 编号直接引用核心 Context-Folding,多以 ReSum / IterResearch / AgentFold 等并列对比——"Fold 家族"是主题归类,非显式引用谱系。
  5. 样本量警示:Active Context Compression(2601.07190)仅 N=5、Haiku 4.5,属 PoC,勿与 Fold 家族同等看待。
  6. 分类边界:Self-Manager(并行/隔离)、Recursive Language Models(递归/外部化)严格说属"上下文管理"而非"上下文压缩"。
  7. 仓库名 ≠ 论文名:Context-Folding 的代码仓库为 sunnweiwei/FoldAgent

阅读建议

本文为公开论文的客观整理与技术综述,数字与结论以各论文原文为准;多篇为 2025Q4–2026 的较新工作,更新版本中细节可能微调。