OneRec 系列论文精读清单

截至 2026-06，按"主线 + 生态扩展"两层整理。所有 arXiv 编号、关键数字均逐条核对原文；论文未明确给出的内容标注"未提及"，不作推断。带 ⚠️ 的为易混淆/需考据之处，已在正文标注依据。

本文面向有推荐系统背景的读者，侧重架构、Tokenizer、奖励系统/强化学习、Scaling Law、线上指标五条技术线索，最后给出一份跨论文的技术演进脉络横向综述。

概览

主线论文：7 篇（短视频核心 4 篇 + 开源基座 1 篇 + 推理基座 1 篇 + 推理量化 1 篇）
生态扩展：8 篇（电商 4、搜索 1、本地生活 1、直播 1、广告 1）
时间跨度：2025-02 ～ 2026-06
出品方：快手（Kuaishou Inc. / OneRec Team），开源仓库见 GitHub 组织 Kuaishou-OneRec
范式概述：用单一生成式模型端到端替代"召回→粗排→精排"级联，把推荐重构为语义 ID 上的自回归生成，并用奖励模型 + 强化学习/偏好对齐直接优化最终目标。

范式：从 DLRM 到 GR

传统工业推荐是多阶段级联（retrieve → pre-rank → rank）。OneRec 系列指出其三大结构性问题：

误差上界传递：每个阶段独立优化，前一阶段的效果构成后一阶段的性能上界，整体次优。
算力碎片化：服务时 超过 50% 资源耗在阶段间的通信与存储而非高精度计算；传统排序模型训练 MFU 仅 4.6%、推理 MFU 仅 11.2%（对比 LLM 在 H100 上约 40%）。
难以承接 LLM 进展：级联架构难以引入已被验证的 Scaling Law、强化学习等范式。

OneRec 家族的共同配方高度一致，可作为贯穿整个系列的主线：

\text{语义 Tokenizer（item}\to\text{分层离散 ID）} \;\to\; \text{生成式 Backbone（Enc-Dec 或 Decoder-Only + MoE）} \;\to\; \text{Reward Model + RL/偏好对齐}

一、全景与时间线

主线（短视频核心 + 开源 + 推理）

论文	时间	arXiv	一句话核心
OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment	2025-02	2502.18965	奠基作；Enc-Dec + session-wise 生成 + IPA/DPO 偏好对齐
OneRec Technical Report	2025-06	2506.13695	工业级系统报告；Scaling Law、MFU、ECPO 强化学习、奖励体系
OneRec-V2 Technical Report	2025-08	2508.20900	Lazy Decoder-Only，算力 −94%，扩到 8B；GBPO + 真实反馈
OneRec-Think: In-Text Reasoning for Generative Recommendation	2025-10	2510.11639	把显式推理（CoT）引入生成式推荐；Think-Ahead 部署
OpenOneRec Technical Report ⭐	2025-12	2512.24762	开源基座（1.7B/8B，Qwen3）+ 首个指令遵循 benchmark RecIF-Bench
Quantized Inference for OneRec-V2 ⭐	2026-03	2603.11486	FP8 PTQ 推理；延迟 −49%、吞吐 +92%
OneReason Technical Report ⭐	2026-06	2606.06260	跨场景"推理基座"；Perception + Cognition，specialize-then-unify

生态扩展（One* 家族跨场景）

论文	时间	arXiv	场景	关键线上指标
OneSug	2025-06	2506.06913	电商 query suggestion	CTR +2.01%、订单 +2.04%
OneSearch	2025-09	2509.03236	电商搜索	CTR +1.67%、成本 −75.40%、MFU 3.26%→27.32%
OneSearch-V2	2026-03	2603.24422 ⚠️	电商搜索	CTR +3.98%、订单 +2.11%
OneMall	2026-01	2601.21770	电商（卡/短视频/直播）	商品卡 GMV +13.01%
UniSearch	2025-09	2509.06887	通用/直播搜索	直播搜索"近年最大单实验提升"
OneLoc	2025-08	2508.14646	本地生活服务	GMV +21.0%、订单 +17.9%
OneLive	2026-02	2602.08612	直播推荐	观看时长 +1.73%/+2.70%
GR4AD	2026-02	2602.22732	广告	广告收入最高 +4.2%

⚠️ OneSearch-V2（2603.24422） 的 arXiv 页未显式标注机构，但作者与命名延续 OneSearch，归属快手为高置信度推断。
⚠️ 切勿把 EGA 当作快手广告工作——EGA 系列实为美团出品；详见第五节「辨析与纠偏」。

二、主线论文精读

1. OneRec（家族奠基作）

arXiv：2502.18965（2025-02-26，v1）｜作者：Jiaxin Deng, Shiyao Wang, Kuo Cai 等（快手）｜场景：快手短视频主推荐（数亿 DAU）

核心贡献：首个在真实工业场景中显著超越精心设计的级联系统的端到端生成式推荐模型。

架构：T5 风格 Encoder-Decoder + 稀疏 MoE。

输入：用户正反馈历史行为序列（有效观看/点赞/关注/分享），长度 $n=256$ 。
Tokenizer（⚠️ 考据点）：采用 Residual K-Means（残差 K-Means）量化，不是 RQ-VAE；层级 $L=3$ ，每层码本 $K=8192$ 。用 Balanced K-Means 强制每簇 $w=|\mathcal V|/K$ 个 item，解决标准 RQ-VAE 的码字分布"沙漏现象"。
MoE：专家总数 $N_{MoE}=24$ ，每次激活 top-2；推理时仅 13% 参数被激活。
Session-wise 生成：一次性生成 $m=5$ 个 item 构成一个会话，建模 item 间依赖，替代逐点（point-wise）预测 + 人工组合规则。

预训练：语义 ID 上的自回归 NTP 损失

\mathcal{L}_{NTP} = -\sum_{i=1}^{m}\sum_{j=1}^{L} \log P\big(s_{i}^{j+1} \mid [s_{[BOS]}, s_1^{1:L},\dots, s_i^{1:j}];\Theta\big)

Iterative Preference Alignment（IPA）+ DPO（核心创新）：

用当前模型 beam search（beam size = 128）生成 $N=128$ 个候选会话；
用 reward model 打分，取最高/最低分构成偏好对 $(S_{uw}, S_{ul})$ ；
以上一轮 checkpoint 为参考模型做 DPO 更新，迭代得到 $M_t\to M_{t+1}\to\dots$ ：

\mathcal{L}_{DPO} = -\log \sigma\!\left( \beta \log \frac{M_{t+1}(S_{uw}\mid \mathcal{H}_u)}{M_{t}(S_{uw}\mid \mathcal{H}_u)} - \beta \log \frac{M_{t+1}(S_{ul}\mid \mathcal{H}_u)}{M_{t}(S_{ul}\mid \mathcal{H}_u)} \right)

Reward Model 模拟用户：四塔多任务（每塔 Sigmoid(MLP)），BCE 训练，预测四个目标（⚠️ 命名反直觉）：swt=会话观看时长、vtr=观看概率、wtr=关注概率（不是 watch-through）、ltr=点赞概率。仅对 1% 训练数据做 beam search + DPO（其余仅 NTP），即可达"最大性能的 95%、仅耗 20% 算力"。

结果：模型档位 0.05B→1B，参数 scaling 持续有效（0.05B→0.1B 精度 +14.45%）。线上 1% 主流量 A/B，OneRec-1B+IPA：watch-time +1.6%（A/B 表口径：total watch time +1.68%、average view duration +6.56%）。局限：互动类指标（如点赞）相对不足，遗留多目标建模问题。

2. OneRec Technical Report

arXiv：2506.13695（2025-06-16，v1；现存至 v4）｜约 39 页｜作者：快手 OneRec Team（约 65 人）｜部署：快手主 App + 极速版，4 亿 DAU

相对 v1 的升级：从"验证可行性"走向"工业级系统化"，回答三个问题——能否复现 LLM 式 Scaling Law、如何最大化 MFU、RL 能否真正优化推荐。

Tokenizer 升级为 RQ-Kmeans + 协同感知多模态：

多模态表征：caption/tag/ASR/OCR/封面/5 帧 → miniCPM-V-8B 产 1280 个 token（512 维）→ QFormer 压到 4 个 query token；训练用 item-to-item 对比损失 $\mathcal{L}_{I2I}$ + caption 生成损失（抑制幻觉）。
量化：RQ-Kmeans， $L_t=3$ 层，码本 8192（scaling 实验扩到 32768）。相比 RQ-VAE，重构损失 降低 25.18%，三层码本利用率均为 1.0。

上下文构造（四路多尺度）：User Static（uid/age/gender）+ Short-term（ $L_s=20$ ）+ Positive-feedback（ $L_p=256$ ）+ Lifelong（最长 10 万 item，经分层 KMeans 压到 2000 代表 item 再 QFormer 压到 128 token）。

模型规模与 MoE（Table 1）：0.015B / 0.121B / 0.935B / 2.633B；最大档 24 层、专家 24 选 4、Enc+Dec 均用 MoE。

强化学习：ECPO（Early-Clipped Policy Optimization） —— GRPO 的稳定化改进：

J_{ECPO}(\theta)=\mathbb{E}\Big[\tfrac{1}{G}\sum_i \min\big(\rho_i A_i,\ \mathrm{clip}(\rho_i,1-\epsilon,1+\epsilon)A_i\big)\Big],\quad \rho_i=\tfrac{\pi_\theta(o_i|u)}{\pi'_{\theta_{old}}(o_i|u)}

对大比值提前裁剪防梯度爆炸（ $\pi'_{\theta_{old}}=\max(sg(\pi_\theta)/(1+\epsilon+\delta),\ \pi_{\theta_{old}})$ ， $\delta=0.1$ ），并移除 KL 项（SFT 与 RL 同时进行）。优势用组内标准化 $A_i=(r_i-\mathrm{mean})/\mathrm{std}$ 。

三类奖励：① 偏好奖励 P-Score（SIM 多塔网络学习式融合，替代人工加权，避免目标 seesaw）；② 格式奖励（解决 RL 引入后非法语义 ID 上升的"挤压效应"，合法率从 <50% 拉回 95%，线上 App Stay Time +0.13%）；③ 产业生态对齐奖励（冷启动/长尾/商业化直接编码进 reward）。

Scaling Law（经验性，未拟合闭式幂律）：性能在前约 100 亿样本内快速收敛，之后放缓但超 1000 亿样本仍缓慢提升；特征/码本/推理（Pass@K）多维 scaling 均有效，推理 Pass@K 从 8→1024 时 P-score +376.10%（部署取 K=512）。

算力效率：FLOPs 较传统模型提升约 10×；训练 MFU 23.7%、推理 MFU 28.8%（⚠️ 结论段写作 28.6%，疑笔误）；推理经 TensorRT 优化 5× 吞吐；整体 OPEX 仅为级联管线的 10.6%。

线上（加 Reward Model Selection）：App Stay Time +0.54%（主）/ +1.24%（极速版），LT7 +0.05% / +0.08%；纯生成模型部分互动指标为负（如主端 Like −2.00%），加 RM Selection 后全面转正——验证可收敛到无 seesaw 的多目标均衡。本地生活服务 GMV +21.01%、订单 +17.89%（与后续 OneLoc 同一部署，见 §3）。

3. OneRec-V2 Technical Report

arXiv：2508.20900（2025-08-28，v1；现存至 v4）｜作者：快手 OneRec Team（75 人）｜部署：快手/极速版 4 亿 DAU

痛点：V1 的 Enc-Dec 架构下，当上下文长度 512 时，上下文编码消耗 97.66% 的 FLOPs，真正做生成决策的 decoder 仅占 2.34%——算力严重错配，限制扩展。

Lazy Decoder-Only Architecture（核心）：把上下文视为静态条件信息，仅通过 cross-attention 单向访问，不再逐层重复编码长序列。

Cross-attention 去掉 K/V 投影（由 Context Processor 一次性预产出）；
KV-Sharing（跨层共享 K/V）： $l_{kv}=\lfloor l\cdot L_{kv}/N_{layer}\rfloor$ ；
GQA：KV head group $G_{kv}<H_q$ ，最高把 KV size 压缩 13×。

效果（1B / 512 上下文）：GFLOPs 296.36 → 18.89（−93.6%≈−94%），激活值 17.63B → 1.24B，收敛 loss 几乎不变（3.28→3.27）；训练资源 −90%，从而在等价预算下把模型从 0.5B 扩到 8B。

强化学习：GBPO（Gradient-Bounded Policy Optimization）——针对负样本在策略比=1 处缺乏上界、易梯度爆炸的问题，借 BCE 式梯度稳定性动态约束梯度、无需 clip：

\pi'_{\theta_{old}}(o_i|u)= \begin{cases} \max(\pi_{\theta_{old}},\ \mathrm{sg}(\pi_\theta)), & A_i\ge 0\\[4pt] \max(\pi_{\theta_{old}},\ 1-\mathrm{sg}(\pi_\theta)), & A_i<0 \end{cases}

Duration-Aware Reward Shaping：按用户历史同时长分桶做对数分层归一化，用经验百分位 $q_i$ 与第 25 分位阈值 $\tau_B$ 分配优势 $A_i\in\{+1,0,-1\}$ 。关键转向：从"依赖 reward model"转为直接用真实用户反馈对齐，降低 reward hacking。

Scaling（Dense 收敛 loss）：0.1B→8B 为 3.57/3.46/3.33/3.27/3.23/3.20/3.19，但不严格服从 scaling law，2B 之后边际收益减小。MoE 4B（激活 0.5B，53 routed + 1 shared，Top-3）loss 3.22，优于 2B dense。

线上：5% 流量、实验组承接 25% 推荐量，相对 V1：App Stay Time +0.467%（主）/ +0.741%（极速版），全部交互+参与度指标同时为正（无跷跷板）。⚠️ 关缓存全量测试暴露隐患：冷启动 Video View −44.7%/−36.7%、聚类密度上升——全量迁移需谨慎。推理 L20、延迟 36ms、MFU 62%。

4. OneRec-Think

arXiv：2510.11639（2025-10-13，v1；现存 v2）｜作者：Zhanyu Liu, Shiyao Wang 等（快手，26 人）

动机：现有生成式推荐（点名 OneRec）是隐式预测器，缺乏 LLM 的显式、可验证推理（如基于文本的 CoT），限制了准确性与可信度。

形式化：把"生成 next item"改写为"先推理、再生成"两步自回归：先由 prompt 生成推理链 $\tau$ ，再条件于 $\tau$ 生成 item 语义 ID。

三件套：

Itemic Alignment：把 item 语义映射进 LLM 文本嵌入空间。四个多任务预训练（User Persona Grounding / Sequential Preference Modeling / Itemic Dense Captioning / General LM）+ 两阶段课程（先冻结 LLM 只训 itemic embedding，再 LoRA 微调）。工业侧词表扩 24576 token（3 层×8192）。
Reasoning Activation（Reasoning Scaffolding）：用上下文蒸馏的 SFT——先在剪枝后的 top- $k$ （ $k=10$ ）相关历史上生成 rationale，再在含噪完整序列上学习推理。
Reasoning Enhancement：针对用户偏好"多有效性（multi-validity）"导致的奖励稀疏，提出 Rollout-Beam Reward Maximization——奖励取 beam 内最佳可达前缀匹配长度，使 reward 计算与 beam search 推理对齐（训练-推理一致）。RL 用 GRPO（VERL 框架， $|G|=16$ ，beam $K=32$ ）。

\mathcal{R}_{\text{Rollout-Beam}}=\max_{\hat{s}\in\mathcal{B}}\sum_{l=1}^{L}\mathbb{I}\big(\hat{s}^{\,l}=s_{v_{n+1}}^{l}\big)

Think-Ahead（工业部署）：解耦"推理"与"打分"——离线采样多条推理路径并 beam search 生成 item 前缀，缓存为个性化候选前缀空间 $\mathcal{C}_u$ ；在线只用实时 OneRec 在受限前缀内补最后一个 token。从而兼顾多步推理与严格延迟。

结果：公开 benchmark（Amazon Beauty/Sports/Toys）8 项指标全面 SOTA（如 Beauty Recall@5 0.0563 vs 最佳基线 ReaRec 0.0450）；消融显示 Itemic Alignment 与 Reasoning 逐级增益。线上 1.29% 流量：App Stay Time +0.159%、Forward +0.758%、Follow +0.431%。

5. OpenOneRec Technical Report ⭐（开源基座 + benchmark）

arXiv：2512.24762（2025-12-31，v1）｜作者：OneRec Team（Guorui Zhou 等）｜开源：GitHub / HuggingFace，代码 Apache 2.0

定位：弥合"推荐系统"与"通用智能"的 gap。现有生成式推荐困于孤立数据，只是擅长模式匹配的领域专家，缺乏世界知识/推理/指令遵循。OpenOneRec = 开源基座 + benchmark + 可复现 pipeline + 开放数据。

三大组成：

RecIF-Bench：首个推荐指令遵循 benchmark。完整规模 119.8M 交互 / 202,359 用户，跨短视频/广告/电商三域；8 类任务按 4 个能力层组织（语义对齐 / 基础推荐 / 指令遵循 / 推理解释）。⚠️ 公开释放口径为 96M / 16 万用户（GitHub 约数"100M/200k"），与完整 benchmark 的严格子集关系论文未明示。
OneRec-Foundation 模型家族：基于 Qwen3，发布 1.7B / 8B，各含 Standard（开源数据，33B token）与 Pro（加百亿 token 工业语料，130B token）。
可复现 pipeline：数据处理 → 协同预训练 → 后训练（SFT + On-Policy Distillation + GRPO）全开源。

关键技术：把 item 当作独立模态，用 RQ-Kmeans（3 层×8192）得到 Itemic Tokens，语义相近 item 共享前缀，使 LLM 把交互历史当连贯上下文（最大 32K）。两阶段预训练：先只训 itemic embedding（其余冻结）、再全参协同预训练。

Scaling Law（首次给出闭式拟合）：

L(N,D) = 0.4232 + \frac{502.32}{N^{0.3325}} + \frac{7.02}{D^{0.1865}},\qquad N_{opt}\propto C^{0.44},\ D_{opt}\propto C^{0.56}

$D$ 指数 > $N$ 指数，表明推荐处于数据密集型 scaling regime。

结果：RecIF-Bench 上 OneRec-8B-Pro 全面最优，三大推荐任务超越 SASRec/TIGER/HSTU/LC-Rec-8B 等；迁移到 Amazon 10 个品类 Recall@10 平均 +26.8%。⚠️ 通用能力并非完全无损：MMLU-Pro / LiveCodeBench / GPQA 有明显退化（1.7B 的 MMLU-Pro 0.5422→0.3548），灾难性遗忘是"缓解"而非消除。

6. OneReason Technical Report ⭐

arXiv：2606.06260（2026-06-04，Work in progress）｜作者：OneRec Team（83 人，Biao Yang, Kun Gai 等）

动机（承接 OneRec-Think 的教训）：观察到生成式推荐中**“思考模式不一定优于非思考模式”**这一反直觉现象，根因是传统 CoT 序列只含 item token、缺乏有效推理基础。有效推理需两大能力：

Perception：把 item token 锚定到语言语义；
Cognition：把（嘈杂的）用户行为序列重组为连贯的潜在兴趣点。

方法：设计三层级 cognition-enhanced CoT 格式用于推荐 SFT；RL 采用 “specialize-then-unify”（先专精后统一） 训练配方。覆盖短视频、直播、广告、电商多场景，定位为跨场景"推理基座"。⚠️ 论文为 work in progress，未给出具体离线/线上数字。

7. Quantized Inference for OneRec-V2 ⭐

arXiv：2603.11486（2026-03-12，v1）｜作者：Yi Su, Xinchen Luo 等（快手）

动机：传统推荐模型权重方差量级约 $10^7$ 、AbsMax > $10^3$ ，动态范围极宽、对量化极敏感，难低精度化。论文用实证分布分析指出：OneRec-V2 的权重/激活统计已"LLM 化"（方差量级 ~ $0.1$ ，与 Qwen3-8B 同量级），加之计算密集、硬件利用率高，因此 LLM 的量化经验可迁移过来。

方法：FP8 训练后量化（PTQ），不改结构。

权重：Linear 按通道、MoE 按 $128\times128$ 块；激活：动态按 token、MoE 按 $1\times128$ 块。
仅对计算主导算子（Attention Linear / Dense FFN / MoE grouped GEMM）做 FP8，其余保 FP16。
FP8 TensorCore 乘法 + FP32 累加，结果回写 FP16。量化算子 $\hat{\mathbf x}=\mathrm{round}(\mathbf x/s)$ 。
系统侧（RecoGEM）：直建 TensorRT 图、量化-GEMM 融合、RadixTopK、大 batch 短上下文专用 Attention 算子。

结果（batch=32）：端到端延迟 139ms → 70ms（−49%），吞吐 205 → 394（+92%）（增益分解：基础设施 +27%、低精度计算 +42%、算子优化 +23%）。线上一周 A/B 各指标变动均在 ±1% 内，判定为可无损上线。⚠️ 未提及：FP8 具体格式（E4M3/E5M2）、GPU 型号、离线指标 gap、显存节省、KV-cache 量化。

三、生态扩展：One* 家族跨场景落地

OneRec 把同一套范式复制到几乎所有业务线，命名上形成 One* / Uni* 家族。

电商

OneSug｜2506.06913（AAAI 收录）——电商 query suggestion 首个端到端生成框架。prefix-to-query 表征增强 + 行为级 reward-weighted ranking。线上（全流量 >1 月）：用户首次点击位置 −9.33%、CTR +2.01%、订单 +2.04%、收入 +1.69%。
OneSearch｜2509.03236——电商搜索统一生成框架。KHQE（关键词增强分层量化编码）+ 多视角行为注入 + PARS（偏好感知奖励系统）。线上：商品 CTR +1.67%、买家转化 +2.40%、订单 +3.22%；运营成本 −75.40%，MFU 3.26%→27.32%。
OneSearch-V2｜2603.24422 ⚠️——OneSearch 后继，推理增强 + 自蒸馏 + 行为偏好对齐（抑制 reward hacking）。线上：商品 CTR +3.98%、订单 +2.11%、相关性 +1.65%。
OneMall｜2601.21770——"一套架构、多场景"覆盖商品卡/短视频电商/直播电商。电商语义 tokenizer + Query-Former + Sparse MoE，RL 打通召回与排序。线上：商品卡 GMV +13.01%、短视频电商订单 +15.32%、直播电商订单 +2.78%（4 亿 DAU）。

搜索 / 本地生活 / 直播 / 广告

UniSearch｜2509.06887——快手搜索（短视频+直播）统一生成架构 = Search Generator + Video Encoder 联合优化，SPO（搜索偏好优化）。直播搜索取得"近年最大单实验提升"。
OneLoc｜2508.14646（WSDM 2026）——本地生活服务的地理感知生成式推荐。geo-aware 语义 ID + geo-aware attention + neighbor-aware prompt + 地理/GMV 奖励。线上：GMV +21.0%、订单 +17.9%（4 亿 DAU；即 OneRec 技术报告所引本地生活结果的细化工作）。
OneLive｜2602.08612——直播推荐动态统一框架。Dynamic Tokenizer（实时残差量化）+ Time-Aware Gated Attention + Decoder-only + Sequential MTP。线上（主/极速版）：观看时长 +1.73%/+2.70%、CTR +0.41%/+0.72%。
GR4AD｜2602.22732——快手广告侧的端到端生成式工作（非 EGA）。UA-SID（统一广告语义 ID）+ LazyAR（惰性自回归 decoder）+ VSL/RSPO + dynamic beam serving。线上：相较 DLRM 栈广告收入最高 +4.2%。

四、技术演进脉络（横向综述）

纵观整个系列，五条技术线各有清晰的演进方向：

4.1 Tokenizer：从行为量化到协同-多模态语义

Residual/Balanced K-Means（OneRec v1，解决码字"沙漏"不均）→ RQ-Kmeans + 协同感知多模态（技术报告：miniCPM-V + QFormer + I2I 对比）→ Itemic Tokens / item 即模态（OpenOneRec：3 层×8192，共享前缀，最大 32K 上下文）→ Dynamic Tokenizer（OneLive：实时残差量化）。一以贯之的是 RQ-Kmeans 而非 RQ-VAE（重构损失更低、码本利用率 100%）。

4.2 架构：Encoder-Decoder → Lazy Decoder-Only

v1/技术报告用 Enc-Dec + MoE，但 V2 揭示其结构性缺陷——97.66% 算力耗在上下文编码。V2 的 Lazy Decoder-Only（上下文作静态条件、cross-attention 去 K/V 投影 + KV-Sharing + GQA）把算力集中到生成端，−94% FLOPs / −90% 训练资源，使 8B 成为可能。广告侧 GR4AD 的 LazyAR 是同一思想的迁移。

4.3 强化学习：DPO → ECPO → GBPO（主题是"稳定性"与"反 reward hacking"）

v1：IPA + DPO（迭代偏好对齐，reward model 造偏好对）；
技术报告：ECPO（GRPO + 提前裁剪防梯度爆炸 + 去 KL）；
V2：GBPO（动态梯度界、无需 clip）+ 真实用户反馈替代 reward model；
Think：GRPO + Rollout-Beam Reward（解决多有效性下的奖励稀疏）；
OpenOneRec：On-Policy Distillation + GRPO。

4.4 奖励系统：从"模拟用户"到"真实反馈"

四塔 reward model（v1）→ P-Score + 格式奖励 + 生态奖励（技术报告）→ Duration-Aware 真实反馈（V2，降低 reward hacking）→ 推荐专用多有效性奖励（Think）。趋势是减少对代理奖励信号的依赖、直接对齐长期价值。

4.5 Scaling Law 与算力效率

技术报告给出经验性 scaling（10 亿/100 亿样本拐点、特征/码本/Pass@K 多维），V2 发现不严格服从 scaling law（2B 后边际递减），OpenOneRec 首次给出闭式拟合并指出推荐是数据密集型（ $D_{opt}\propto C^{0.56}$ ）。效率侧：MFU 4.6%/11.2% → 23.7%/28.8%（技术报告）→ 推理 MFU 62%（V2）→ FP8 吞吐 +92%（量化）；OPEX 降至级联的 10.6%。

4.6 推理能力：从隐式预测到显式推理

OneRec-Think 引入 in-text CoT 与 Think-Ahead 部署；OneReason 进一步指出"思考未必更好"，提出 Perception+Cognition 与 specialize-then-unify。这条线把生成式推荐推向"会推理、可解释、可对话"。

五、辨析与纠偏（避免张冠李戴）

科学严谨要求区分"快手 OneRec 同源"与"仅主题相关的他方工作"：

工作	arXiv	真实归属	说明
EGA-V1 / EGA-V2	2505.19755 / 2505.17549	美团 Meituan	⚠️ 常被误认为快手广告。实为美团广告（POI+竞价+计费），作者主页与团队署名可证；快手广告的同源工作是 GR4AD
GeoGR	2602.10411	高德 / 阿里 AMAP	时空感知 POI 生成式检索，非快手
UniShare	2602.09618	快手，但判别式	GNN + 多模态双边兴趣匹配，非生成式，不属 OneRec 家族
OneTrans / RecGPT / URM / LUM 等	—	字节 / 阿里等	他方生成式推荐工作，与快手生态无关