Context-Folding 相关论文精读清单

截至 2026-06。围绕长程（long-horizon）LLM Agent 的"上下文折叠"展开：以 Context-Folding（2510.11967）为核心，整理 Fold 家族（AgentFold / FoldAct / U-Fold）与相邻的上下文压缩/管理方法，并给出跨论文的技术对比与脉络。

所有 arXiv 编号、关键数字均逐条核对原文；论文未明确给出的标注"未提及"。带 ⚠️ 的为易混淆/需考据之处，已标注依据。

概览

核心：1 篇（Context-Folding，提出 branch-and-fold + RL 框架 FoldGRPO）
Fold 家族：3 篇（AgentFold、FoldAct、U-Fold）
相邻方法：上下文压缩/驱逐 4 篇（ACON、Active Context Compression、AdaCoM、CWL）+ 上下文管理（非压缩）2 篇（Self-Manager、Recursive Language Models）
时间跨度：2025-10 ～ 2026-06
核心问题：长程任务下，Agent 把全部交互历史线性堆进单一上下文会**饱和（context saturation）**且算力二次增长；"折叠"让 Agent 在任务执行过程中主动压缩工作上下文，只保留对后续推理有用的产出。

问题背景：长程 Agent 的上下文困境

主流 ReAct 范式把每一步的"推理–动作–观测"三元组线性累积进同一上下文。随任务步数（horizon）增长，带来两类问题：

性能退化：超长上下文中模型难以利用相关信息（“lost in the middle”）；原始 web/工具输出的噪声过多，干扰对关键信息的利用，导致次优动作。
效率低下：注意力的二次复杂度 + KV-cache 随长度增长的开销。

已有两条扩展路线各有缺陷：

摘要式（summarization）压缩：上下文将满时触发事后摘要。会打断推理流，且在任意点不可逆地丢弃细节。
多智能体（multi-agent）委派：把子任务分派给专门 Agent 以隔离上下文。但依赖手工设计、问题特定的 workflow，难泛化、难端到端优化。

折叠（folding） 的核心思想：把"何时压缩、压缩哪段、保留什么"变成 Agent 可学习的显式技能，并尽量对齐到子任务边界——只在一段推理的效用兑现后才将其压缩为简洁摘要。

一、全景与时间线

论文	时间	arXiv	机构	一句话核心
Context-Folding（核心）	2025-10	2510.11967	ByteDance Seed / CMU / Stanford	branch 进子轨迹、return 时折叠为摘要；RL 框架 FoldGRPO，active context 小 10×
AgentFold	2025-10	2510.24699	Tongyi Lab, Alibaba	每步产出多尺度折叠指令（细粒度凝练 / 深度整合）；亚线性 token 增长，仅 SFT
FoldAct	2025-12	2512.22733	HKUST / Duke Kunshan / Microsoft AI	指出"摘要改变未来观测分布→非平稳"，用分离损失+一致性损失稳定 RL，训练提速 5.19×
U-Fold	2026-01	2601.18285	Zhejiang Univ. / Tongyi / Westlake	意图感知动态折叠，面向用户中心多轮；持续摘要 + 显式 to-do list
ACON	2025-10	2510.00615	Microsoft	在自然语言空间优化压缩准则并蒸馏到小模型；峰值 token −26~54%
Active Context Compression (Focus)	2026-01	2601.07190	Nikhil Verma	Agent 自主"巩固+剪枝"历史；⚠️ 仅 N=5、Haiku 4.5 的 PoC
AdaCoM	2026-05	2605.30785	RUC 等	训练外置控制器管理"冻结 Agent"的上下文（端到端 RL）
Beyond Compaction (CWL)	2026-06	2606.11213	Semenov, Dorofeev	基于依赖图的语义驱逐而非摘要/截断
Self-Manager	2026-01	2601.17879	UCAS / ModelBest 等	并行 Agent loop + 子线程隔离上下文（管理而非压缩）
Recursive Language Models	2025-12	2512.24601	MIT	把长 prompt 当外部环境递归自调用处理（约 100× 上下文）

⚠️ Fold 家族中，AgentFold / FoldAct / U-Fold 均未以 2510.11967 编号直接引用核心 Context-Folding（详见第六节）。

二、核心论文精读：Context-Folding

arXiv：2510.11967（v1，2025-10-13）｜作者：Weiwei Sun, Miao Lu 等｜机构：ByteDance Seed + CMU + Stanford｜已投 ICLR 2026（OpenReview JaLXQnA2wi）｜项目页 context-folding.github.io｜代码 sunnweiwei/FoldAgent

核心机制：branch-and-fold

Agent 从求解问题 $q$ 的 main thread 出发，用两个专用工具主动管理上下文：

branch(description, prompt)：从主线分叉，开启独立工作上下文处理子任务 $q'$ 。
return(message)：折叠该分支内产生的上下文并回到主线，仅追加 message 给出的产出摘要。

分支内的中间步骤（branch 与 return 之间的所有 action–observation 对）被折叠移除——token 密集型操作（web 检索、代码库探索）卸载进分支，主线只保留关键发现。

形式化上，给定轨迹 $\tau=(a_1,o_1,\dots,a_T,o_T)$ ，ReAct 把全历史拼入上下文，而 Context-Folding 为：

p^{\text{Context Fold}}_\theta(\tau \mid q) := \prod_{i\in[T]} \pi_\theta\big(a_i \mid q,\ F(\tau_{<i})\big)

其中 $F$ 是 context manager，把 branch–return 区间折叠掉。例如（两个分支）：

F(a_1,o_1,\underbrace{a_2,o_2,a_3,o_3,a_4}_{\text{branch 1}},o_4,\underbrace{a_5,\dots,a_8}_{\text{branch 2}},o_8,a_9,o_9,a_{10},o_{10}) \rightarrow (a_1,o_1,a_2,o_4,a_5,o_8,a_9,o_9,a_{10},o_{10})

推理时维护 KV-cache，return 时把 cache 回滚到 branch 处，因此折叠在推理上高效。具体实例化为 plan–execution 框架：Planning State 在主线做规划、抑制 token 密集工具；Execution State 在分支内完成子任务、禁止嵌套 branch。

与多智能体的关系：可视为多智能体的特例，但 sub-agent 即时创建、共享同一上下文前缀（对 KV-cache 友好）、主子交替执行；相对摘要式方法，它是"可学习的、对齐子任务边界的摘要机制"。

FoldGRPO（⚠️ 即 ICLR 版的 FoldPO）

RL 方法在 arXiv 版称 FoldGRPO（Folded-context GRPO），ICLR/OpenReview 版改名 FoldPO，指同一方法。它在 GRPO 上做两点改造：训练时按式 $F(\cdot)$ 折叠上下文 + 稠密 token 级 process reward。目标函数（节选优势项）：

\hat{A}_{i,t} = \frac{\operatorname{clip}(R_i + Q_{i,t},\ 0,\ 1) - \operatorname{mean}(\{R_i\})}{\operatorname{std}(\{R_i\})}

其中 $R_i\in\{0,1\}$ 为可验证的最终奖励（RLVR）， $Q_{i,t}$ 为 token 级 process reward（仅优化 LLM 生成的 token，工具观测 token 被 mask）。Process reward 解决两类失败模式——主线不折叠耗尽预算、子任务完成后不 return：

Process Reward	触发条件	取值 $Q_{i,t}$
Unfolded token penalty	主线上下文超过工作上限 50% 时，对主线中非 branch 创建回合的 token	−1
Out-scope penalty	用 GPT-5-nano 判定分支做了子任务范围外的动作	−0.2
Failure penalty	失败的工具调用回合内 token	−1

训练与结果

基座：Seed-OSS-36B-Instruct（⚠️ 非 Qwen；Qwen 仅作 BrowseComp 的 retriever 与对比基线）。RL 框架 VeRL；LLM 单次上下文 32K，最多 10 个 branch（理论上限 327,680 token）；训练约 50 步。
基准：BrowseComp-Plus（Deep Research，N=150）、SWE-Bench Verified（N=500）。
主结果：Folding Agent + FoldGRPO 取得 BrowseComp-Plus 0.620 / SWE-Bench Verified 0.580（Pass@1），仅用 32K active context 即超过需要 327K 上下文窗口的 ReAct 基线，并显著优于摘要式方法，可比拟 100B+ 大模型 Agent。
增益拆解：RL 较未训练的折叠版绝对提升 +20.0%（BrowseComp）/ +8.8%（SWE-Bench）；FoldGRPO 较普通 GRPO 再 +7.7% / +1.6%。
"10× 更小"依据：FoldGRPO 把主线轨迹压到约 8K token，而总处理量 >100K token，即 >90% 上下文压缩；案例中 4 个 branch 把 107K token 压到约 6.5K。
泛化：把 50 个 easy 问题复合后，虽训练时最多 10 branch，求解时自适应平均用 32.6 个 branch。

局限：折叠训练需把分支保持为分离的因果条件序列，与现有框架（VeRL）不直接兼容；并行分支收益不明确；未来方向是多层折叠（fold 本身可被再 fold）。

三、Fold 家族

AgentFold — 每步多尺度折叠

arXiv：2510.24699（v1，2025-10）｜Tongyi Lab, Alibaba（第一作者有 SJTU 背景）

动机：ReAct 累积原始历史→噪声饱和；每步定长摘要全历史→不可逆丢细节。受人类回溯性整合（retrospective consolidation） 启发，把上下文当作动态认知工作区主动管理。

机制：第 $t$ 步上下文为四元组 $C_t=(Q,\,T,\,S_{t-2},\,I_{t-1})$ ——不变问题 $Q$ 、工具 schema $T$ 、Multi-Scale State Summaries $S$ 、Latest Interaction $I$ （上一步完整原文）。每步 deep reasoning 并发产出折叠指令 + 工具调用，折叠指令为 {"range":[k,t-1],"summary":σ}，由起点 $k$ 决定两种尺度：

Granular Condensation（ $k=t-1$ ）：把最近一次交互凝练为新摘要块追加到序列尾，保留细粒度细节；
Deep Consolidation（ $k<t-1$ ）：撤回区间 $[k,t-1]$ 内所有摘要块，用单一摘要替换 $s_{k,t-1}=\sigma_t$ ，抽象掉整段多步子任务（如把一段失败的探索路径折成一句结论）。

何时用哪种折叠，由轨迹数据上的 SFT 学习（仅 SFT，无 RL）。基座 Qwen3-30B-A3B-Instruct-2507（30B 总参 / 3B 激活），数据由专门的 Fold-Generator 流水线 + 拒绝采样合成，问题集同 WebSailor。

结果：BrowseComp 36.2、BrowseComp-ZH 47.3、WideSearch 62.1、GAIA 67.0，以 30B-A3B 超过/匹敌 DeepSeek-V3.1-671B 等更大模型。亚线性 token 增长：100 轮内上下文从约 3.5k 增至约 7k（不到翻倍），第 100 轮比 ReAct 小约 84k token（92%）、约省 7GB 显存，可扩展到 500 轮仍 <20k；对比 GLM-4.5 因 append-only 在 64 轮后饱和失败。平均上下文量化指标：

A_t=\frac{1}{|\mathcal{T}_t|}\sum_{j\in\mathcal{T}_t}\operatorname{TokenCount}(C_{j,t})

与核心 Context-Folding 的差异：AgentFold 是单轨迹内、每步、多尺度的回溯折叠，无显式 branch 结构；Context-Folding 是按子任务分支边界的 branch-and-fold。AgentFold 未引用 2510.11967。

FoldAct — 将折叠的"非平稳性"作为核心问题

arXiv：2512.22733（v1，2025-12-28）｜HKUST / Duke Kunshan / Microsoft AI

核心洞见：现有折叠把 summary 当普通 action，忽视了 summary 会改变 Agent 未来的 observation space，导致一个 policy-dependent、非平稳的观测分布，违反 policy gradient 的平稳性假设。由此三个挑战：C1 梯度稀释（summary token 占比小→credit assignment 失衡）、C2 自条件化（策略→摘要→观测的恶性循环致 training collapse）、C3 计算开销。

方法（基于 PPO，三个核心组件）：

Separated Loss：对 summary token 与 action token 分别算 PPO loss，避免梯度稀释；配 summary reward（幻觉 −0.2 / 保留 +0.2）。
Full Context Consistency Loss：最小化压缩上下文与完整历史输出分布的 KL，抑制 distribution shift：

\mathcal{L}_{\text{consistency}}=\mathbb{E}_\tau\Big[\sum_t \operatorname{KL}\big(\pi_\theta(\cdot\mid s_t)\,\|\,\pi_\theta(\cdot\mid h_{0:t})\big)\Big]

Selective Segment Training：按 dropout 概率只在部分 turn 算 loss，降开销。

结果：WebWalker 46.1、GAIA 45.0、BrowseComp-en 8.3 / zh 15.2、XBench 32.9；加一致性损失时训练全程稳定，不加则在 step 173 collapse。训练提速 5.19×（ $p_{\text{drop}}=0.5$ + 一致性损失，933.7 vs 4846.7 s/step），峰值显存 −8%（full-context 训练 OOM）。

U-Fold — 面向用户中心场景的意图感知折叠

arXiv：2601.18285（v1，2026-01-26）｜Zhejiang Univ. / Tongyi / Westlake

动机：现有折叠多为 single-query / single-intent 设计，在多轮用户中心对话中会丢失细粒度约束、且无法追踪意图漂移（intent drift）。

方法（保留完整历史 + 每轮产出压缩工作上下文）：

Conversation Summarization Module $M_i\sim\pi_{\theta_c}(\cdot\mid C_i)$ ：产出追踪"目标/约束/偏好演变"的摘要 + 显式 to-do list；
Dynamic Data Extraction Module $D_i\sim\pi_{\theta_d}(\cdot\mid M_i,T_{1:i-1})$ ：过滤工具输出，仅留对当前待办有用的信息；
Agent 基于 $(M_i,D_i)$ 而非完整历史生成动作。三原则：Parsimony / Sufficiency / Dynamic。是否用 RL：未提及。

结果：τ-bench / τ²-bench / VitaBench 上，长上下文设置较 ReAct 71.4% 胜率；较 IterResearch +27.0%、较 ReSum +15.8%。Qwen3-4B 上提升有限（小模型作摘要器/抽取器能力受限）。

四、相邻的上下文管理 / 压缩方法

确属上下文压缩 / 驱逐

ACON｜2510.00615（Microsoft）——在自然语言空间优化"压缩准则"：基于失败分析迭代改写 guidelines，再把 compressor 蒸馏到小模型，无需微调主模型。峰值 token −26~54%，让小模型当长程 Agent 最高 +46%。走 prompt 空间路线，常与走 RL 的 Context-Folding 互为对照。
**Active Context Compression (Focus)**｜2601.07190——Agent 自主"巩固+剪枝"历史，解决 Context Bloat。token −22.7% 而精度不降。⚠️ 仅 N=5、用 Claude Haiku 4.5 的 proof-of-concept，引用数字须标注样本量。
AdaCoM｜2605.30785——训练一个外置 LLM 控制器去管理"冻结 Agent"的上下文（端到端 RL），适配闭源 Agent；提出 Fidelity-Reliability 权衡。区别于 Fold 家族"Agent 自带折叠"。
Beyond Compaction (CWL)｜2606.11213——提出 Context Window Lifecycle，基于依赖图的语义驱逐/删除，而非摘要或按新近度截断。

上下文管理（非压缩）

Self-Manager｜2601.17879（UCAS / ModelBest 等）——并行 Agent loop：主线程经 Thread Control Blocks 异步创建多个独立隔离上下文的子线程。手段是多线程并行 + 上下文隔离（接近 sub-agent 委派），不是压缩本身。
Recursive Language Models｜2512.24601（MIT，Zhang/Kraska/Khattab）——把长 prompt 当外部环境，程序化检视并递归调用自身处理片段，可处理约 100× 上下文窗口的输入；较 compaction 中位 +26%。偏"递归分解/外部化"而非在主轨迹内学折叠。

五、技术对比与脉络

折叠的两种范式

Branch-and-fold（子任务分支折叠） —— Context-Folding。Agent 显式 branch 进子轨迹、return 时折叠；压缩对齐子任务边界，用 RL（FoldGRPO）学习。
Step-wise multi-scale fold（逐步多尺度折叠） —— AgentFold。每步对累积摘要发一条折叠指令，无显式分支；用 SFT 学习。

FoldAct 与 U-Fold 是在此之上的细化：前者解决折叠引入的训练非平稳性（让 RL 可稳定训练），后者把折叠推广到多轮、意图演化的用户中心场景。

横向对比

论文	折叠粒度 / 触发	训练方式	基座	代表结果	上下文节省
Context-Folding	子任务 branch 边界	RL（FoldGRPO）	Seed-OSS-36B	BC-Plus 0.620 / SWEB-V 0.580	主线 ~8K，>90%
AgentFold	每步多尺度（凝练/整合）	SFT	Qwen3-30B-A3B	BrowseComp 36.2	100 轮 ~7K，省 92%
FoldAct	每步摘要（重稳定性）	RL（PPO）	未单列	WebWalker 46.1	压缩比 0.25~0.65
U-Fold	每个 user turn（意图感知）	未提及	Qwen3 等多模型	较 ReAct 71.4% 胜率	增长显著放缓

与概念邻居的关系

ReAct（基线）：全部原始历史线性累积→饱和；折叠以它为主要对照，在保持/超过成功率的同时把 active context 缩约 10×。
摘要式 compaction（如 LangChain DeepAgents）：上下文将满时整体摘要/截断，易不可逆丢细节；折叠按子任务边界、可学习地压缩，论文报告优于此类。
子智能体委派 / 多智能体：把子任务派给独立 Agent / 独立上下文（Self-Manager 即此路线）；折叠在单 Agent 内部用"分支→折叠摘要"达到类似隔离，无需真正分裂 Agent。
长期记忆系统（MemGPT 类）：靠外部记忆读写/检索把信息移出上下文、需要时取回，管的是跨会话持久知识；折叠管的是单条任务内的 working context，关注点不同。

六、辨析与考据

科学严谨要求标注以下易错点：

FoldGRPO = FoldPO：同一 RL 方法，arXiv 版称 FoldGRPO、ICLR/OpenReview 版称 FoldPO。
⚠️ venue 不一致：Context-Folding 的 GitHub README 标注 “ICML’26”，但 OpenReview 记录为 ICLR 2026，疑 README 笔误，以 OpenReview 为准。
核心基座非 Qwen：Context-Folding 用 Seed-OSS-36B-Instruct；Qwen 仅作 retriever / 对比基线。
引用关系：AgentFold / FoldAct / U-Fold 均未以 2510.11967 编号直接引用核心 Context-Folding，多以 ReSum / IterResearch / AgentFold 等并列对比——"Fold 家族"是主题归类，非显式引用谱系。
样本量警示：Active Context Compression（2601.07190）仅 N=5、Haiku 4.5，属 PoC，勿与 Fold 家族同等看待。
分类边界：Self-Manager（并行/隔离）、Recursive Language Models（递归/外部化）严格说属"上下文管理"而非"上下文压缩"。
仓库名 ≠ 论文名：Context-Folding 的代码仓库为 sunnweiwei/FoldAgent。