Semantic ID 相关工作阅读清单
推荐系统 Semantic ID 论文精读清单
截至 2026-06。整理范围:以 2023–2026 年推荐系统中的 Semantic ID(语义 ID,下称 SID) 为主,奠基方法与信息检索源头单独追溯。按"生成式 / 判别式"两条主线,并在每条主线内按设计思路分组,共收录约 215 项。
本文为已整理调研材料的二次组织与综述:arXiv 编号、机构、venue、关键数字均照搬原始考据,论文未明确给出的标注"未提及",不作推断。带 ⚠️ 的为仍待确认或易混淆之处,已在正文与第八节标注依据。
2601.*–2606.*为 2026 年最新预印本。工业级生成式系统中的快手 OneRec 全系另有独立精读,见 OneRec 系列论文精读清单,本文只作收录与定位,不重复展开。
概览
- 论文数量:约 215 项。生成式约 150 篇,含工业系统约 33;判别式约 28 篇;信息检索源头约 28 篇;综述 / 方法 / 数据集 8 篇;工业界非 arXiv 落地 5 项。
- 时间跨度:奠基方法上溯至 2017 年的 VQ-VAE 与 2021–2022 年的信息检索源头,主体集中在 2023-05 的 TIGER 至 2026-06 的最新预印本。
- 核心范式:把每个 item 用一段离散的、语义结构化的编码表示,取代随机哈希得到的原子 item ID。
- 生成式:用自回归、并行或扩散解码直接生成目标 item 的 SID token,把推荐重构为序列生成。
- 判别式:把 SID 当作特征、embedding 或检索单元,喂给召回、粗排、精排,不做生成。
- 同时具备两种用法的工作如 LIGER、DIG、Snapchat SID 单列;生成式但不使用 SID 的工作如 HSTU、URM、PinRec 列入对照。
- 主要出品方:学术侧以 RUC、UCSD、USTC、NUS、Google、Meta、Snap 为主;工业侧快手最为多产,阿里系、腾讯、美团、字节、京东、Pinterest、Spotify 等均有规模化落地。
背景: 什么是 Semantic ID 与量化方法骨架
传统推荐用一个随机哈希得到的整数 ID 表示 item,再为每个 ID 学一个 embedding。该方案有两个结构性问题:一是长尾与冷启动 item 的 embedding 训练不充分;二是 ID 之间没有语义关系,相似 item 不共享任何参数。
Semantic ID 的思路是:先用内容或行为信号得到 item 的连续表示 ,再用向量量化把它压成一小段离散码 。语义相近的 item 会共享前缀或码字,从而带来可泛化、可生成、可压缩三个性质。量化方法决定了 SID 的结构,是全部工作的分类基础。
量化方法族
| 量化族 | 代表方法 | 机制 | 典型使用者 |
|---|---|---|---|
| 单层 VQ | VQ-VAE,2017 | 最近邻查码本 + 直通估计 + commitment loss | TokenRec / ColaRec / SEATER 基座 |
| 逐级残差量化 | RQ-VAE,2022 | 逐级量化残差,coarse→fine 有序元组 | TIGER / LC-Rec / LETTER |
| 残差 K-means | RQ-Kmeans | 每级对残差做 K-means,码本利用率高 | OneRec / QARM,快手 |
| 乘积量化 | PQ / OPQ | 切分子向量分别量化,得无序码集合 | VQ-Rec / RPG / RecJPQ |
| 层级聚类与树 | balanced k-ary tree | 约束聚类成平衡树 | SEATER / DSI / NCI |
| Lookup-free 与 FSQ | FSQ / LFQ / RQ-FSQ | 每维取整到固定值,无码本,抗坍缩 | QARM V2 / Quantizing Intent |
| 对比量化 | contrastive quantization | 用对比目标替代纯重建目标 | CoST / SimCIT |
| 软、可微、变长 | Gumbel / capsule routing | 可微索引,或按置信度变长 | DIGER / CapsID / UniGRec |
五个横切维度可用来定位任何一篇工作:①是否融合协同信号 ②单模态或多模态 ③有序短码、无序长码、树或集合 ④是否处理冲突与坍缩 ⑤tokenizer 是否端到端可学习。
四个核心量化公式
单层 VQ-VAE。编码器输出 ,在大小为 的码本 中取最近邻:
其中 为输入、 为解码重建, 为编码器输出的连续隐向量, 为第 个码字、 为量化后隐向量, 为停止梯度算子, 为 commitment 权重。 不可导,反向传播用直通估计把梯度直接拷给 。
逐级残差量化 RQ-VAE。把同一向量在 个码本上逐级量化其残差,得到有序码元组:
其中 为第 级残差, 为第 级码本的第 个码字, 为码长即层数, 为该级选中的码字下标。SID 为有序元组 ,重建为 。靠前的码粗、靠后的码细,因此天然适合前缀树解码。这是 TIGER 与多数生成式工作的默认 tokenizer。
残差 K-means。残差递归与 RQ-VAE 相同,区别在于每级码本不是联合训练的可学习参数,而是直接在该级残差集合上做 K-means 得到的聚类中心,不需要解码器。OneRec 进一步用 balanced K-means 强制每簇容量相等,缓解 RQ-VAE 常见的码字分布不均,即"沙漏"现象。
乘积量化 PQ 与 OPQ。把向量切成 段子向量,各段在自己的子码本中独立量化:
其中 为第 段子向量, 为第 段子码本的第 个码字。SID 为无序码集合 ,适合并行生成。OPQ 在切分前先乘一个正交旋转矩阵 ,使各段分布更均匀以降低量化失真。
一、奠基与里程碑时间线
下表是贯穿全主题的关键节点,完整收录见第三至第六节的分组清单。
| 论文 | 时间 | arXiv | 一句话核心 |
|---|---|---|---|
| VQ-VAE | 2017 | 1711.00937 | 离散表示学习的基座,单层向量量化 + 直通估计 |
| GENRE | 2020-10 | 2010.00904 | 最早的自回归 ID 检索,约束 beam 生成实体名 |
| DSI | 2022-02 | 2202.06991 | 生成式检索源头,T5 把语料编进参数后生成层级 docid |
| RQ-VAE | 2022-03 | 2203.01941 | 逐级残差量化,coarse→fine 有序码,多数生成式工作的 tokenizer |
| P5 | 2022-03 | 2203.13366 | text-to-text 统一推荐任务的范式起点 |
| VQ-Rec | 2022-10 | 2210.12316 | text→code→repr,OPQ 编码,跨域可迁移 |
| TIGER | 2023-05 | 2305.05065 | 生成式奠基:RQ-VAE 层级 SID + T5 自回归生成 |
| Better Generalization with Semantic IDs | 2023-06 | 2306.08121 | 判别式奠基:SID 替哈希 ID 作排序特征,提升长尾泛化 |
| LC-Rec | 2023-11 | 2311.09049 | 对齐微调把协同语义注入 SID,无冲突索引 |
| HSTU | 2024-02 | 2402.17152 | 生成式推荐 scaling law 奠基,行为 ID 而非 SID,对照工作 |
| LETTER | 2024-05 | 2405.07314 | RQ-VAE 加语义、协同、多样性三正则 |
| QARM | 2024-11 | 2411.11739 | 快手多模态内容量化成可学习 SID 与传统 ID 联合优化 |
| OneRec | 2025-02 | 2502.18965 | 端到端生成式统一召回与排序并超越级联 |
| FORGE | 2025-09 | 2509.20904 | 阿里工业级生成式推荐 + SID 基准,140 亿交互 |
| PLUM | 2510 | 2510.07784 | Google/YouTube 适配预训练 LM 做工业 GR,十亿级部署 |
| GRID / Practitioner’s Handbook | 2507 | 2507.22224 | Snap 出品的量化方法实证对比 + 开源框架 |
二、奠基论文精读
本主题真正的奠基工作只有少数几篇。这里给出生成式与判别式各自的源头,以及信息检索侧的范式起点,便于建立框架。
1. TIGER — 生成式推荐的奠基
- arXiv:2305.05065|Recommender Systems with Generative Retrieval|Google DeepMind|NeurIPS 2023
动机:传统检索是"item embedding + 近似最近邻",需要为每个 item 维护可学习 embedding,长尾与新 item 学不充分;且检索质量受 ANN 索引限制。TIGER 把检索改写为直接生成目标 item 的标识符。
方法:分两步。
- Tokenizer:取 item 的内容文本,用预训练文本编码器得到语义向量,再用 RQ-VAE 量化成长度 的有序码元组,即 SID。语义相近的 item 共享前缀码。对落入同一码元组的 item,追加一个去重后缀位以保证唯一。
- 生成式检索:用 T5 风格的 seq2seq 模型。输入是用户历史 item 的 SID token 串联,输出是下一个 item 的 SID,逐位自回归生成:
其中 为用户历史的 SID token 序列, 为目标 item 第 位码。解码用前缀约束的 beam search,保证生成的码元组对应真实 item。
结果:在 Amazon Beauty / Sports / Toys 上全面超越当时的序列推荐基线;因相似 item 共享前缀,对冷启动 item 具备一定泛化与检索能力。
局限:SID 冲突需要去重后缀,破坏纯语义结构;tokenizer 与推荐器分两阶段训练,量化目标与推荐目标不一致。这两点正是后续 G3、G5、G6 多篇工作的改进出发点。
2. Better Generalization with Semantic IDs — 判别式的奠基
- arXiv:2306.08121|Google|RecSys 2024
动机:工业排序模型普遍用随机哈希得到的 item ID embedding。哈希碰撞是任意的,长尾与新 item 的 embedding 训练不足,泛化差。
方法:用 RQ-VAE 把 item 内容向量量化成 SID,再以 SID 派生的 embedding 替代或补充原来的哈希 ID embedding 作为排序特征。论文系统比较了把 SID 作为特征的几种表示方式,例如逐级码 embedding 拼接,以及 SID 的 N-gram 组合。语义相近的 item 因共享码而共享参数,碰撞从"任意"变为"语义有意义"。
结果:在排序任务上改善泛化,长尾与冷启动 item 的提升尤为明显。该工作确立了"SID 作判别式特征"这条主线,后续 Meta、快手、阿里多篇排序侧工作沿此展开,见第四节 D1。
3. DSI — 信息检索侧的范式起点
- arXiv:2202.06991|Differentiable Search Index|Google|NeurIPS 2022
"SID + 生成式检索"的范式实际起源于信息检索。DSI 用 T5 把整个语料编码进模型参数,给定 query 直接自回归生成目标文档的 docid:
其中 为 query, 为 docid 第 位。docid 用层级 K-means 构造,使语义相近的文档共享前缀。这一"层级语义标识符 + 前缀约束自回归生成"的结构被 TIGER 直接迁移到推荐。完整的信息检索源头清单见第五节。
三、生成式 SID 全景
按设计思路分为 19 组,覆盖奠基、tokenizer 变体、协同对齐、多模态、端到端、新解码范式、长度与表达力、漂移更新、推理与强化学习、多行为、跨域、图与 trie、偏置鲁棒、冷启动、推理效率、垂类、搜推联合、工业系统、非 SID 对照。
3.1 生成式奠基范式
| 论文 | arXiv | 机构 | 会议·年份 | SID 构造 | 核心设计思路 |
|---|---|---|---|---|---|
| P5 | 2203.13366 | Rutgers | RecSys 2022 | 数字 / 文本 ID | text-to-text 统一推荐任务的范式起点 |
| VQ-Rec | 2210.12316 | RUC + UCSD | WWW 2023 | OPQ | text→code→repr,跨域可迁移 |
| TIGER | 2305.05065 | Google DeepMind | NeurIPS 2023 | RQ-VAE | 奠基工作,RQ-VAE 层级 SID + T5 自回归生成 |
| How to Index Item IDs | 2305.06569 | Rutgers | SIGIR-AP 2023 | RID / IID / SID / CID / SemID | 系统对比多种 item 索引方式 |
3.2 Item Tokenizer 设计变体
| 论文 | arXiv | 机构 | 会议·年份 | SID 构造 | 核心设计思路 |
|---|---|---|---|---|---|
| SEATER | 2309.13375 | RUC | SIGIR-AP 2024 | 平衡 k 叉树 | 树结构 identifier + 对比学习对齐层级 |
| LMIndexer | 2310.07815 | UIUC + Amazon | ICML 2024 | LM 端到端生成 SID | LM 自监督直接生成语义 ID |
| IDGenRec | 2403.19021 | Rutgers | SIGIR 2024 | 文本 ID | 自然语言 token 组成语义 ID,zero-shot 跨平台 |
| GPTRec | 2306.11114 | U. Glasgow | Gen-IR@SIGIR 2023 | SVD 量化 sub-id | GPT-2 自回归逐 item 生成 sub-item token |
| TransRec | 2310.06491 | NUS + USTC | KDD 2024 | 多面 identifier,ID + title + attr | 生成多面 ID 再 grounding 到真实 item |
| BIGRec | 2308.08434 | USTC | TORS 2025 | 文本 item token | 两步 grounding,先生成 item token 再接地 |
| TokenRec | 2406.10450 | PolyU | TKDE 2025 | Masked VQ | 掩码 VQ,免 beam search |
| UTGRec | 2504.04405 | RUC 高瓴 + 腾讯微信 | preprint 2025-04 | MLLM + 树码本 | 通用 tokenizer,跨域可迁移 |
| MTGRec ⚠️ | 2504.04400 | RUC 高瓴 + 华为 | SIGIR 2025 ⚠️ | 多 identifier,RQ-VAE | checkpoint 多 identifier 数据增强 |
| SIIT | 2412.17171 | UT Austin + Snap | preprint 2024-12 | 自改进 tokenization | 训练中按 LLM 理解调整 token |
| ActionPiece | 2502.13581 | Google DeepMind | ICML 2025 | 上下文感知,类 BPE | 同一 action 按上下文分配不同 token |
| Pctx | 2510.21276 | UCSD | preprint 2025-10 | 个性化、上下文 SID | 同一 item 按用户意图分不同 SID,NDCG +11.4% |
| GRAM | 2506.01673 | 高丽大学 | ACL 2025 | 语义到词法翻译编码 | 把 item 关系译进 LLM 词表 + 多粒度后融合 |
| ReSID | 2602.02338 | 中南大学 + Shopee + NTU | preprint 2026-02 | FAMAE + GAOQ,非 LLM | 推荐原生 tokenizer,tokenization 成本降 122 倍 |
| CoFiRec | 2511.22707 | UIUC + Meta + UCSD | preprint 2025-11 | 多层级独立 tokenize | 粗到细自回归,意图渐进细化 |
| ELMRec ⚠️ | 2409.19979 | NTU | EMNLP 2024 | 全词 embedding,无码本 | 增强高阶交互感知,边界工作,非码本 SID |
3.3 协同信号与语义对齐码本
| 论文 | arXiv | 机构 | 会议·年份 | SID 构造 | 核心设计思路 |
|---|---|---|---|---|---|
| LC-Rec | 2311.09049 | RUC + 腾讯 | ICDE 2024 | RQ-VAE + 均匀映射 | 对齐微调注入协同语义,无冲突索引 |
| CoST | 2404.14774 | 华为诺亚 | RecSys 2024 | 对比量化 | 量化时引入 item 邻域关系 |
| ColaRec | 2403.18480 | 山大 + 腾讯 | CIKM 2024 | CF 模型 GID | 对比损失对齐内容空间与协同空间 |
| LETTER | 2405.07314 | USTC + NUS | CIKM 2024 | RQ-VAE + 三正则 | 语义、协同、多样性,缓解码分配偏置 |
| Mixture-of-Codes | 2410.09560 | 清华 + 腾讯 | preprint 2024-10 | 多码本 | 多码本扩大语义表示规模 |
| Semantic Convergence | 2412.13771 | 美团 | AAAI 2025 | 行为语义 tokenization | 两阶段对齐缩小稀疏协同与 LLM 稠密 token 的差距 |
| UNGER | 2502.06269 | 华科 + 华为 | TOIS 2025 | 统一 Unicode | 语义与协同统一为一套码,解决语义支配问题 |
| CCFRec | 2503.12183 | RUC | KDD 2025 | 多视角文本 VQ 语义码 | 语义码缩小文本与协同表示的差距 |
| DiscRec | 2506.15576 | 华科 + USTC | preprint 2025-06 | 双分支解耦 | embedding 层解耦语义与协同 + 门控 |
| DECOR | 2509.10468 | UIUC | SIGIR 2026 | 解耦上下文 token | 保留 LM 知识同时让 token 适应交互上下文 |
| Align³GR | 2511.11255 | 快手 | AAAI 2026 Oral | 双 tokenization | token、行为、偏好三级对齐 + 渐进 DPO |
| TS-Rec | 2602.22632 | USTC | preprint 2026-02 | token 级语义 SID 初始化 | 对齐共享 item-cluster 语义 |
3.4 多模态 SID 生成式
| 论文 | arXiv | 机构 | 会议·年份 | SID 构造 | 核心设计思路 |
|---|---|---|---|---|---|
| MMGRec | 2404.16555 | 山大 + 蒙纳士 | preprint 2024-04 | Graph RQ-VAE | 多模态与协同融合量化成 Rec-ID |
| EAGER | 2406.14017 | 浙大 + 阿里 | KDD 2024 | 双流,行为 + 语义 | 行为流与语义流并行 + 全局对比 |
| MQL4GRec | 2504.05314 | 中山大学 + 鹏城实验室 | ICLR 2025 | 多模态量化"语言" | 各模态 VQ 成共享词表,跨域迁移 |
| EAGER-LLM | 2502.14735 | 浙大 + 华为 | WWW 2025 | 行为与语义注入 | 双流迁到 decoder-only LLM |
| MME-SID | 2509.02017 | 港城大 + 腾讯 | CIKM 2025 | MM-RQ-VAE | 多模态 embedding + SID,缓解 embedding collapse |
| MACRec | 2511.15122 | 北航 + 美团 | AAAI 2026 Oral | 多面跨模态量化 | 跨模态量化降冲突 + 多面对齐 |
| TriAlignGR | 2605.05249 | 东南大学 + 清华 | preprint 2026-05 | VLM 文本 + 多模态 SID | 8 任务联合对齐,缓解 SID 内容退化与语义不透明 |
| CEMG | 2512.21543 | CMU + UCLA 等 | preprint 2025-12 | RQ-VAE + 协同引导 | 协同引导多模态融合得 RQ-VAE 码再交 LLM 生成 |
| MSCGRec | 2602.03713 | Meta AI | preprint 2026-02 | DINO 自监督图像量化 | 把协同特征当额外模态融合 |
| CARD | 2604.26427 | 电子科大 | preprint 2026-04 | 非均匀量化 | 平衡偏斜语义分布,统一文本、视觉、协同 |
| Text-as-Vision×SID | 2601.14697 | 昆士兰大学 + 港城大 | preprint 2026-01 | 多模态 SID | 实证"文本当视觉"对 SID 生成式推荐的影响 |
3.5 端到端与可微 SID 学习
| 论文 | arXiv | 机构 | 会议·年份 | SID 构造 | 核心设计思路 |
|---|---|---|---|---|---|
| ETEGRec | 2409.05546 | RUC | SIGIR 2025 | RQ-VAE 端到端 | tokenizer 与推荐器端到端联合 + 双对齐 |
| BLOGER | 2510.21242 | USTC | SIGIR 2026 | 双层优化 | 元学习 + 梯度手术耦合 tokenizer 与推荐器 |
| UniGRec | 2601.17438 | USTC + eBay | preprint 2026-01 | 软标识符,可微 | 连续分配概率替代硬码字 + 均匀正则抗坍缩 |
| DIGER | 2601.19711 | 格拉斯哥 + 莱顿 | SIGIR 2026 | Gumbel 可微索引 | 推荐梯度直接塑造 SID |
| UniSID | 2602.10445 | 腾讯 + 武大 | preprint 2026-02 | 端到端 SID,广告 | 联合优化 embedding 与 SID,Hit Rate +4.62% |
| R3-VAE | 2604.11440 | 字节,今日头条 | preprint 2026-04 | 参考向量引导 RQ-VAE | 语义锚点稳定 SID 训练,Recall@10 +14.5% |
| GenRetr-SPC | DOI 3792862 | 阿里巴巴 | WWW 2026 short | EMA 码本 + restart | 联合学 embedding 与码本 + 同商品簇约束 |
3.6 新解码范式:并行、无序、集合、扩散
| 论文 | arXiv | 机构 | 会议·年份 | SID 构造 | 核心设计思路 |
|---|---|---|---|---|---|
| SC-Rec ⚠️ | 2408.08686 | 韩国 POSTECH 系 | preprint 2024-08 | 双异构索引树 | 协同树与语义树做 self-consistency 重排,最新版改名 MVIGER |
| STORE ⚠️ | 2409.07276 | PolyU + 华为 | preprint 2024-09 | 单 LLM 统一 | 单一 LLM 同时做 tokenization 与推荐,最新版改名 LAMIA |
| SETRec | 2502.10833 | NUS | SIGIR 2025 | 无序集合 identifier | order-agnostic token 集合,并行生成 |
| RPG | 2506.05781 | UCSD + Meta | KDD 2025 | OPQ 无序长 SID,长度 ≤ 64 | 多 token 预测并行生成长 SID |
| HiD-VAE | 2508.04618 | 吉大 + 港城大 | preprint 2025-08 | 层级监督量化 | 多级标签监督 + uniqueness loss |
| Purely Semantic Indexing | 2509.16446 | UCSD | preprint 2025-09 | ECM / RRS | 不加随机后缀即保证 SID 唯一 |
| ContRec | 2504.12007 | PolyU | WWW 2026 | σ-VAE 连续 token | 连续 token 扩散,规避 argmin 不可导 |
| DiffGRM | 2510.21805 | 快手 | WWW 2026 | 并行语义编码 | 掩码离散扩散替代自回归,任意序并行 |
| LLaDA-Rec | 2511.06254 | RUC | preprint 2025-11 | 离散扩散并行 | 扩散 + 双向注意力并行生成 SID |
| MaskGR | 2511.23021 | UT Austin + Snap | preprint 2025-11 | 标准 SID | 掩码扩散建模用户 SID 序列,提升粗粒度召回 |
| MDGR | 2601.19501 | 阿里国际 + 武大 | preprint 2026-01 | 重设计 codebook | 从 codebook、训练、推理三方面重塑扩散 GR |
| Time-Aware Diffusion | 2606.01670 | 中南大学 + RUC + PolyU | preprint 2026-06 | SID 上时间感知扩散 | 偏好解耦为周期性与近期触发 |
| CapsID ⚠️ | 2605.05096 | 机构未找到 | preprint 2026-05 | capsule 软路由变长 | 按置信度软路由变长 SID,缓解 tokenizer 瓶颈 |
3.7 SID 长度、表达力与剪枝
| 论文 | arXiv | 机构 | 会议·年份 | 关注点 | 核心设计思路 |
|---|---|---|---|---|---|
| RASTP | 2511.16943 | 浙大系 | preprint 2025-11 | token 剪枝 | 按 magnitude × attention 剪低信息 token,训练 −26.7% |
| STAMP | 2604.05329 | 浙大 + 阿里 | preprint 2026-04 | 语义剪枝 + 多步预测 | 前向动态裁剪冗余 token + 多 token 目标,缓解语义稀释 |
| ACERec | 2602.13573 | 南科大 + 南大 + 西交 | preprint 2026-02 | 长 SID 蒸馏 | Attentive Token Merger 蒸馏长 SID,NDCG +14.4% |
| Variable-Length SID | 2602.16375 | HSE University | preprint 2026-02 | 变长码 | Discrete-VAE,高频 item 短码、稀有 item 长码 |
| Expressiveness Limits | 2605.06331 | UCSD | preprint 2026-05 | 理论 | 树状自回归解码使树相邻 item 的分数被人为拉近 |
| VarLenRec | 2605.17779 | 华师大 | preprint 2026-05 | 变长 tokenization | 按流行度自适应 SID 长度 |
| Asymmetric GR,MHQ | 2605.14512 | 清华 + 腾讯 | preprint 2026-05 | 多面层级量化 | 输入连续投影、输出多级离散 SID 解耦,约 16% 提升 |
3.8 SID 漂移、陈旧与持续更新
| 论文 | arXiv | 机构 | 会议·年份 | 关注点 | 核心设计思路 |
|---|---|---|---|---|---|
| Mitigating Collaborative SID Staleness | 2604.13273 | AI VK + ITMO | SIGIR 2026 | SID 陈旧 | 轻量、模型无关的 SID 重对齐,算力约降 8–9 倍 |
| DACT | 2603.29705 | 复旦 + MSRA | preprint 2026-03 | 漂移感知持续 tokenization | 漂移与平稳 item 差异化优化 + 层级码重分配 |
| GTI | 2604.02324 | UW-Madison + LinkedIn 等 | preprint 2026-04 | 新 token 词表初始化 | 新 item 与新 SID token 在预训练空间语言学接地 |
3.9 推理与强化学习后训练
| 论文 | arXiv | 机构 | 会议·年份 | SID 方案 | 核心设计思路 |
|---|---|---|---|---|---|
| SIDReasoner | 2603.23183 | NUS | preprint 2026-03 | RQ-VAE 式 SID | 强化 SID token 与语言理解的关联,推理不依赖大量数据 |
| LASAR | 2605.10207 | 北航 + 百度 | preprint 2026-05 | 潜空间推理 | 隐状态多步潜推理,grounding SID 防漂移 |
| MiniOneRec | 2510.24431 | USTC + NUS | preprint 2025-10 | RQ-VAE SID | 首个全开源 GR 框架,SFT + 约束解码 + RL,0.5B–7B scaling |
| GREAM | 2510.20815 | 浙大 + 上交 | preprint 2025-10 | 协同与语义对齐离散索引 | CoT 推理课程 + SRPO,支持直接与推理双模 |
| Rank-GRPO / ConvRec-R1 | 2510.20150 | Netflix + UVA + Cornell | ICLR 2026 | SID / item identifier | 以排名位次为 RL 单元,对话推荐 |
| VRec | 2603.07725 | NUS + Meta | preprint 2026-03 | SID | reason-verify-recommend,mixture-of-verifiers |
| UGR | 2602.11719 | USTC | preprint 2026-02 | 分层 SID | 不确定性加权奖励 + 置信对齐,亦属校准 |
3.10 多行为生成式
| 论文 | arXiv | 机构 | 会议·年份 | SID 构造 | 核心设计思路 |
|---|---|---|---|---|---|
| MBGen | 2405.16871 | UCSD | CIKM 2024 | 平衡 SID + 平衡 Chunked ID | 两步自回归先行为后 item + 位置路由专家 |
| GAMER | 2511.03155 | 清华 + 快手 | preprint 2025-11 | 预训练 side-info SID | decoder-only 跨层交互建模分层行为,发布短视频多行为数据集 |
| GRACE | 2507.14758 | Walmart | RecSys 2025 | RQ-VAE + CoT 属性 token | Journey-aware 稀疏注意力,可解释多行为生成 |
3.11 跨域、多域统一与可迁移
| 论文 | arXiv | 机构 | 会议·年份 | SID 构造 | 核心设计思路 |
|---|---|---|---|---|---|
| GenCDR | 2511.08006 | 西交利物浦 + 利物浦 | AAAI 2026 | 域自适应解耦 SID | 通用 encoder + 域 adapter 动态路由 + 域感知前缀树 |
| GMC | 2507.12871 | USTC + NUS + 腾讯 | preprint 2025-07 | RQ-VAE 域共享 SID | 多目标跨域统一 seq2seq + 域对比 |
| UniTok | 2511.12922 | 延世大学 | AAAI 2026 | MoE tokenizer | 一次 tokenize 跨域复用,互信息校准 |
跨域可迁移设计另见 UTGRec、VQ-Rec、MQL4GRec。
3.12 图与 trie 结构及解码约束
| 论文 | arXiv | 机构 | 会议·年份 | SID 构造 | 核心设计思路 |
|---|---|---|---|---|---|
| CONGRATS | 2510.10127 | 北大 + 快手 | KDD 2026 | SID + 图结构解码 | 图结构多路径探索,缓解似然陷阱 |
| TrieRec | 2602.21677 | 浙大 + 蚂蚁集团 | preprint 2026-02 | 分层 SID 诱导 trie | trie 拓扑注入注意力位置编码 |
| SimGR | 2602.07847 | 中南大学等 | preprint 2026-02 | SID | 训推共享管线,消除 token 级与 item 级分布偏差 |
| Vectorizing the Trie ⚠️ | 2602.22647 | 机构未找到 | preprint 2026-02 | SID + trie | 把 trie 约束解码向量化以适配加速器 |
3.13 偏置、公平、长尾与鲁棒
| 论文 | arXiv | 机构 | 会议·年份 | SID 构造 | 核心设计思路 |
|---|---|---|---|---|---|
| CRAB ⚠️ | 2604.05113 | 机构未找到 | preprint 2026-04 | 离散语义 token | codebook 再平衡缓解流行度偏置 |
| GenPlugin | 2507.03568 | 厦门大学 | preprint 2025-07 | 双编码器共享解码器 | 概率替换 token 缓解曝光偏置 + 检索增强长尾 |
| ADC-SID | 2510.25622 | 阿里国际 + 武大 | preprint 2025-10 | 自适应行为与内容对齐 | 长尾 item 协同噪声去噪 |
3.14 生成式冷启动与归纳
| 论文 | arXiv | 机构 | 会议·年份 | SID 构造 | 核心设计思路 |
|---|---|---|---|---|---|
| SpecGR | 2410.02939 | UCSD | AAAI 2026 Oral | 同 tokenizer 给新 item 编 SID | drafter 提含新 item 的候选,GR 当 verifier,归纳推荐未见 item |
| GenRecEdit | 2603.14259 | RUC + 对外经贸大学 | preprint 2026-03 | SID | 首个 GR 模型编辑框架,缓解冷启动塌缩 |
3.15 推理效率、蒸馏与 serving
| 论文 | arXiv | 机构 | 会议·年份 | 关注点 | 核心设计思路 |
|---|---|---|---|---|---|
| SID-MLP | 2605.12617 | UCSD + Snap | preprint 2026-05 | 蒸馏 | 把重型 decoder 蒸馏成位置专属 MLP 头,8.74 倍加速 |
工业侧推理加速见 3.18 的 NEZHA;解码约束见 3.12。
3.16 垂类:POI、音乐、新闻、地图
| 论文 | arXiv | 机构 | 会议·年份 | SID 构造 | 核心设计思路 |
|---|---|---|---|---|---|
| GNPR-SID | 2506.01375 | 电子科大 | KDD 2025 | RQ-VAE POI-SID + diversity | 首个 next-POI 的 LLM 生成式推荐,准确率 +16% |
| KGTB | 2509.12350 | 武汉科技大学 + 武大 | preprint 2025-09 | 知识图谱 tokenization | KG 节点量化成 structural ID + 多行为指令微调,POI |
| GeoGR | 2602.10411 | 高德 AMAP | preprint 2026-02 | geo-aware SID | 地理约束共访 POI 对 + 对比 + 迭代精炼 |
| GenPOI | 2605.03397 | 北京交大 + 腾讯地图 | preprint 2026-05 | Geo-Semantic POI token | 空间感知 POI 生成 + proximity 约束解码 |
| Music-SID,SiriusXM | 2507.18800 | SiriusXM / Pandora | preprint 2025-07 | SID | 千万级曲库 next-song 用 SID |
| FusID | 2601.08764 | UCSD | preprint 2026-01 | 多模态融合 SID + PQ | 音频、标签、歌词联合编码,零冲突,playlist 续接 |
| PSRQ | 2508.20359 | 网易云音乐 + 杭电 | CIKM 2025 | 渐进语义残差量化 | 音乐多模态联合兴趣建模 |
| Intent-Driven News | 2605.07613 | 腾讯 PCG + 中山大学 | ACL 2026 Industry Oral | LLM 意图到层级 SID 前缀 | Generate-then-Match 保证对话新闻推荐 grounded |
3.17 搜索与推荐联合及生成式搜索
| 论文 | arXiv | 机构 | 会议·年份 | SID 构造 | 核心设计思路 |
|---|---|---|---|---|---|
| Joint Search & Rec | 2508.10478 | Spotify | RecSys 2025 LBR | 统一与任务专属 SID 对比 | 联合微调 bi-encoder 得统一 SID 空间最优 |
| GenSAR | 2504.05730 | RUC + 快手 | RecSys 2025 | 语义与协同双标识符 | 生成式统一搜索与推荐,平衡两类信息 |
| C2T-ID | 2510.19221 | 中科院计算所 + 阿里 | SIGIR-AP 2025 | 语义码本到文本 docid | 高频元数据关键词替换数字标签 |
| Hi-Gen | 2404.15675 | 阿里 | ICDM 2024 | 层级编码解码 docid | DSI 式层级生成式检索用于电商搜索召回 |
3.18 工业级大规模生成式系统
快手 OneRec 全系。下表只作收录与定位,完整精读见 OneRec 系列论文精读清单。
| 系统 | arXiv | 时间 | SID 方案 | 核心设计思路 |
|---|---|---|---|---|
| OneRec | 2502.18965 | 2025-02 | RQ-Kmeans 多模态 SID | 端到端统一召回与排序并超越级联,承接约 25% 流量 |
| OneRec Tech Report | 2506.13695 | 2025-06 | 同上 | MFU 优化 + 训练与部署细节 |
| OneRec-V2 | 2508.20900 | 2025-08 | 同上 | Lazy Decoder-Only,算力降 94%,扩到 8B |
| OneRec-Think | 2510.11639 | 2025-10 | RQ-VAE itemic token + 推理 | 生成 item 前做 in-text reasoning |
| OneReason | 2606.06260 | 2026-06 | itemic token grounding | OneRec 系加推理,三级 cognition CoT |
| DualGR | 2511.12518 | 2025-11 | SID + S2D | 长短期兴趣双分支 + Search-based SID Decoding |
| GLASS | 2602.05663 | 2026-02 | SID-Tier | 长序列映射成统一兴趣向量增强首位 SID token + 语义硬检索 |
| GR4AD | 2602.22732 | 2026-02 | UA-SID 统一广告 SID | 广告生产级 GR,LazyAR + 动态 Beam,延迟 < 100ms,广告收入 +4.2% |
| OneSug | 2506.06913 | 2025-06 | query 文本 token,非 item SID | 端到端生成式电商 query suggestion |
| OneSearch | 2509.03236 | 2025-09 | KHQE,RQ-Kmeans 3 级 + OPQ 2 段 | 端到端统一替代召回、预排、精排,订单 +3.22% |
其他厂商。
| 系统 | arXiv | 机构 | 会议·年份 | SID 方案 | 核心设计思路 |
|---|---|---|---|---|---|
| HSTU | 2402.17152 | Meta | ICML 2024 | 非 SID,行为 ID | 生成式推荐 scaling law 奠基,1.5T 参数 |
| LIGER | 2411.18814 | Meta | preprint 2024-11 | RQ-VAE SID + dense | 生成式与稠密检索融合补冷启动,边界工作 |
| COBRA | 2503.02453 | 百度 | preprint 2025-03 | 稀疏 SID + 稠密级联 | 先生成粗 SID 再生成稠密向量,转化 +3.6% |
| PLUM | 2510.07784 | Google / YouTube | WWW 2026 | SID tokenization | 适配预训练 LM 做工业 GR,YouTube 十亿级部署 |
| UniPinRec | 2606.00422 | arXiv 2026-06 | 共享 transformer,不显式 SID | 统一检索与排序消除参数冗余 + 跨阶段 KV 共享 | |
| FORGE | 2509.20904 | 阿里 / 淘宝 | preprint 2025-09 | RQ-VAE 3×8192 + 多模态 + 协同 | 工业 GR 与 SID 基准,140 亿交互,首页成交 +0.35% |
| NEZHA | 2511.18793 | 阿里 / 淘宝广告 | WWW 2026 | GR 推理加速,不改 SID | self-drafting 投机解码,驱动十亿级广告收入 |
| CQ-SID | 2605.14434 | 阿里淘天 | preprint 2026-05 | 类目感知对比 RQ-VAE | 层级 cluster ID + 专家引导 GRPO,覆盖 50% 以上生产曝光 |
| MTGR | 2505.18654 | 美团 | CIKM 2025 | 非 SID,HSTU 特征 token | FLOPs 达 DLRM 的 65 倍,全量上线,边界工作 |
| EGA-V2 | 2505.17549 | 美团 | preprint 2025-05 | 层级 tokenization + 多 token 预测 | 端到端生成式广告统一兴趣、POI、创意、分配、计费 |
| DOS | 2602.04460 | 美团 | WWW 2026 short | 双流正交量化 SID | 协同对齐码本与生成空间,部署数亿用户 |
| MBGR | 2604.02684 | 美团 | preprint 2026-04 | Business-aware SID,BID | 业务专属 SID 防多业务共用单一 SID 空间混淆 |
| GPR | 2511.10138 | 腾讯 / 微信视频号广告 | arXiv 2025-11 | RQ-Kmeans,L=4 | 广告与内容共享多级 SID 空间 + 异构层次解码器 |
| UniVA | 2605.05803 | 腾讯 / 微信视频号广告 | preprint 2026-05 | Commercial SID | 变现价值注入 SID 构造 + Generation-as-Ranking |
| Tencent Ad Challenge 2025 | 2604.04976 | 腾讯 | preprint 2026-04 | 全模态 GR 数据集 + SID 构造 | 开放全模态 GR 基准 TencentGR-1M / 10M |
| GenRec | 2604.14878 | 京东 | preprint 2026-04 | SID + Token Merger 压缩 | page-wise 训练 + Token Merger 压缩,App 点击 +9.5% |
| UniRec | 2604.12234 | Shopee | preprint 2026-04 | SID + 属性链前缀 | SID 前缀加结构化属性 token 做判别式特征交叉 |
| Spotify GLIDE | 2603.17540 | Spotify | preprint 2026-03 | SID,离散播客目录 | 生产级播客生成式检索,新节目发现 +14.3% |
| LEMUR ⚠️ | 2511.10962 | 字节 / 抖音搜索 | arXiv 2025-11 | 端到端多模态,疑无离散 SID | 首个 raw-data 端到端多模态推荐 |
3.19 生成式但非 SID 的对照与反例
这些工作常与 SID 生成式推荐并列讨论,但 item 表示不是量化语义码,列此以澄清边界。
| 系统 | 实际 item 表示 | 说明 |
|---|---|---|
| HSTU,Meta | 原始行为或类别 ID | 生成式 transduction,非量化 SID |
| MTGR,美团 | HSTU + DLRM 特征 | 行为与特征 token |
| URM,阿里 2502.03041 | multi-query 表示 | LLM 通用检索器,非层级码本 |
| LUM,阿里 2502.08309 | user / item embedding | 大用户模型三步范式 |
| GenRank,小红书 2505.04180 | item + action embedding | 生成 action 而非 item SID |
| 小红书搜索 RL 2512.00968 | 全文文本 | 生成相关性标签 |
| JD Generative CTR 2507.11246 | 生成式预训练 | 无 SID |
| PinRec,Pinterest 2504.10507 | 实值向量 | 刻意放弃离散 SID 以规避坍缩,已上线 Homefeed 与 Search |
| RecGPT,阿里 2507.22879 | LLM 生成的 tag 语义信号 | 三塔,非 RQ-VAE SID,淘宝全量上线 |
| RankMixer,字节 2507.15551 | 特征交互 | 纯排序 scaling |
| Taobao 生成式重排 2505.07197 | 生成排列 | list-level 重排 |
| OneSug,快手 | query 文本 token | query suggestion |
四、判别式 SID 全景
判别式把 SID 当作特征、embedding 或检索单元,不做生成。按用途分八组。
4.1 SID 作排序特征
替代或补充随机哈希得到的 item ID embedding。
| 论文 | arXiv | 机构 | 会议·年份 | SID 构造 | 核心设计思路 | 环节 |
|---|---|---|---|---|---|---|
| Better Generalization with Semantic IDs | 2306.08121 | RecSys 2024 | RQ-VAE | 判别式奠基,SID 替哈希 ID 提升长尾泛化 | 精排 | |
| Embedding Stability with Semantic ID | 2504.02137 | Meta | RecSys 2025 | 层级聚类 + prefix-ngram | 语义有意义的碰撞,解表征漂移,已产线化 | 精排,广告 |
| SIDE | 2506.16698 | Meta | AdKDD 2025 | DPCA + VQ-fusion | 无需 embedding table 还原 latent,解超长序列存储 | 精排 + 序列 |
| Discrete Semantic Tokenization | 2403.08206 | PolyU + NUS + 华为 | WWW 2024 | 离散 token | user 与 item 统一 token 化,约 200 倍压缩 | 精排,CTR |
| Q-BERT4Rec | 2512.02474 | 上海理工大学 | preprint 2025-12 | RVQ 多模态 SID | 量化多模态语义 token 替代任意 item ID | 序列 + 精排 |
| SaviorRec | 2508.01375 | 阿里 / 淘宝 | preprint 2025-08 | RQ-SID + 动态码本 | 多模态表征对齐行为空间预测 CTR,点击 +13.21% | 精排,冷启 |
| COINS | 2510.12604 | 快手 | WWW 2026 | RQ-OPQ 编码 | SID 增强冷启 item 表征做电商搜索 CTR,买家 +3.5% | 精排,冷启 |
| SID-Coord | 2604.10471 | 快手 | SIGIR 2026 | 层级可训练 SID | 协调哈希 ID 的记忆性与 SID 的泛化性,门控融合 | 精排,搜索 |
| GateSID | 2603.22916 | 阿里国际 AIDC | preprint 2026-03 | RQ-VAE 多模态 | 按 item 成熟度自适应门控平衡语义与协同,GMV +2.6% | 精排,冷启 |
| Quantizing Intent | 2606.01396 | preprint 2026-06 | RQ-FSQ | 自然流量跨域行为压成 SID 补稀疏广告排序信号 | 精排 |
4.2 SID 用于召回
双塔、近似最近邻、聚类语义 ID。
| 论文 | arXiv | 机构 | 会议·年份 | SID 构造 | 核心设计思路 | 环节 |
|---|---|---|---|---|---|---|
| Trinity | 2402.02842 | 快手 / 抖音 | preprint 2024-02 | 实时聚类统一 ID | 统一 cluster-ID 建模多兴趣、长尾、长期兴趣 | 召回 |
| M3CSR | DOI 3688098 | 快手 | RecSys 2024 | 多模态聚类类目 ID | 多模态聚成行为对齐类目 ID,无 arXiv | 召回 |
4.3 多模态内容量化成 SID 作特征
面向冷启动与全链路对齐。
| 论文 | arXiv | 机构 | 会议·年份 | SID 构造 | 核心设计思路 | 环节 |
|---|---|---|---|---|---|---|
| QARM | 2411.11739 | 快手 | preprint 2024-11 | RQ-Kmeans | 多模态特征转可学习 SID 与传统 ID 联合优化 | 召回 + 精排 |
| QARM V2 | 2602.08559 | 快手 | preprint 2026-02 | Res-Kmeans FSQ | LLM 增强终身序列,SID 增强 GSU 与 ESU | 序列 + 排序 |
| DAS | 2508.10584 | 快手,广告 | CIKM 2025 | RQ-VAE,MLLM embedding | 一阶段量化 + 双对齐,服务 4 亿以上用户 | 召回 + 排序 |
| MMQ ⚠️ | 2508.15281 | 阿里系,待确认 | WSDM 2026 | Mixture-of-Quantization | shared-specific 专家平衡跨模态协同与独特性 | 召回 / 排序 |
| Taobao Display Ads Multimodal | 2407.19467 | 阿里 / 淘宝 | CIKM 2024 | 多模态表征,离散化待确认 | 多模态表征增强 ID-based 排序 | 召回 + 排序 |
4.4 超长用户序列建模中的 SID
| 论文 | arXiv | 机构 | 会议·年份 | SID 构造 | 核心设计思路 | 环节 |
|---|---|---|---|---|---|---|
| UxSID | 2605.09040 | 快手,广告 | preprint 2026-05 | Semantic IDs | semantic-group 共享兴趣记忆 + 双层注意力,营收 +0.337% | 序列 + 精排 |
4.5 SID 质量提升:冲突与坍缩诊断
| 论文 | arXiv | 机构 | 会议·年份 | 机制 | 核心设计思路 |
|---|---|---|---|---|---|
| Breaking the Hourglass Phenomenon | 2407.21488 | 京东 + 中南大学 + 清华深圳 | EMNLP 2024 Industry | RQ 坍缩诊断 | 揭示 RQ 的沙漏现象即中间层码过度集中并做利用率修复 |
| QuaSID | 2603.00632 | 快手电商 | preprint 2026-02 | 冲突分级 | Hamming-guided 斥力只惩罚有害冲突,GMV-S2 +2.38% |
| AdaSID | 2604.23522 | 快手电商 | preprint 2026-04 | 自适应碰撞处理 | 按局部碰撞负载自适应调节斥力,GMV +0.98% |
| DRQ | 2606.01844 | Shopee | preprint 2026-06 | 解耦残差量化 | 解耦几何重建与分布匹配,诊断码字 overlap 得鲁棒 SID |
4.6 内存高效与混合 ID
| 论文 | arXiv | 机构 | 会议·年份 | SID 构造 | 核心设计思路 |
|---|---|---|---|---|---|
| RecJPQ | 2312.06165 | U. Glasgow | WSDM 2024 | 联合 PQ sub-item ID | PQ 式子嵌入共享,SASRec 与 BERT4Rec 内存降 47 倍 |
| H2Rec | 2512.10388 | 港城大 + 小红书 | preprint 2025-12 | SID + Hash ID 融合 | 头部用 Hash、尾部用 SID,标题 Best of Both Worlds |
| LLM2Rec ⚠️ | 2506.21579 | NUS + USTC + SMU | KDD 2025 | CF 感知语义 embedding,非码本 | LLM 作 item embedding 模型,边界工作,非 SID token |
4.7 用户侧 tokenization
| 论文 | arXiv | 机构 | 会议·年份 | SID 构造 | 核心设计思路 |
|---|---|---|---|---|---|
| U2QT | 2508.00956 | 蚂蚁集团 | preprint 2025-08 | multi-view RQ-VAE,用户 | 把用户多源行为压成统一量化 token,内存降 84 倍 |
| DSIRM | 2606.04374 | 阿里淘天 | preprint 2026-06 | query-bridged 对比量化 | query-item 交互监督量化,query 侧 LLM 预测 item SID |
4.8 生成与判别混合及统一
- LIGER|2411.18814,Meta——生成式产候选,再用稠密检索做 SID embedding 的检索与重排,补冷启动。
- DIG|2605.14853,单作者机构未署,2026-05——把 tokenizer 嵌入判别式排序端到端训练,论证排序与检索是不同粒度的同一 argmax 问题,分别在 item 空间与 token 空间。
- Semantic IDs at Snapchat|2604.03949,Snap,SIGIR 2026 Industry——RQ 有序码 SID 既作判别式特征也可作生成式 token,重点是计算效率与产线集成的权衡。
- Understanding GR with Semantic IDs|2509.25522,MSU + Snap——SID 的 scaling 瓶颈实证,覆盖 44M 至 14B。
五、信息检索生成式检索源头
"SID + 生成式检索"的范式真正起源于信息检索。下列为常被推荐 SID 论文引用的源头工作,非推荐论文。
| 论文 | arXiv | 机构 | 会议·年份 | docid 构造 | 核心思路 |
|---|---|---|---|---|---|
| GENRE | 2010.00904 | Meta + UCL | ICLR 2021 | 实体名串 | 最早的自回归 ID 检索,约束 beam 生成实体名 |
| SEAL | 2204.10628 | Meta + UCL | NeurIPS 2022 | n-gram + FM-index | 生成可区分 n-gram 再映回文档 |
| DSI | 2202.06991 | NeurIPS 2022 | 层级 k-means 语义 docid | 源头,T5 把语料编进参数后自回归生成 docid | |
| NCI | 2206.02743 | MSRA | NeurIPS 2022 | 层级 k-means docid | prefix-aware 解码器 + query 生成 + 一致性正则 |
| DSI-QG | 2206.10128 | UQ + Google | arXiv 2022 | DSI docid | 用生成伪 query 做索引,修正索引与检索失配 |
| DSI++ | 2212.09744 | Google + CMU | EMNLP 2023 | DSI docid | 持续学习版,新增文档不遗忘 |
| IncDSI | 2307.10323 | Cornell | ICML 2023 | DSI docid | 约束优化实时插入新文档,20–50ms |
| GenRet | 2304.04171 | 山大 + 百度 + 莱顿 | NeurIPS 2023 | 学习式离散 docid | 离散自编码端到端学 docid,学习式 tokenizer 源头 |
| GERE | 2204.05511 | 中科院 | SIGIR 2022 | 标题 + 句子 id | 首个生成式证据检索 |
| CorpusBrain | 2208.07652 | 中科院 | CIKM 2022 | 标题 docid | 预训练生成式检索器,KILT |
| Ultron | 2208.09257 | RUC + 华为 | arXiv 2022 | URL 与 PQ 语义 docid | 三阶段训练,普及 URL 与 PQ 语义 docid |
| TOME | 2305.11161 | 百度 + RUC | ACL 2023 | tokenized URL | 先生成 passage 再生成 URL |
| MINDER | 2305.16675 | PolyU + MS | ACL 2023 | 多视图 ID,标题 + 子串 + query | 多 identifier 视图任一检索 |
| TSGen | 2305.13859 | RUC + 华为 | SIGIR 2024 | term-set docid | docid 为词集合,置换不变解码 |
| SE-DSI | 2305.15115 | RUC + 中科院 + 百度 | KDD 2023 | 描述式 docid | 认知学习策略启发的描述性 docid |
| LTRGR | 2306.15222 | PolyU + MS | AAAI 2024 | MINDER 多视图 ID | 加 passage rank loss 对齐排序目标 |
| GR-as-DR,Tied-Atomic | 2306.11397 | U. Amsterdam | arXiv 2023 | 绑定原子 docid | 证明原子生成式检索近似稠密检索 |
| GR Scaling Study | 2305.11841 | Google + Waterloo | EMNLP 2023 | atomic / naive / 语义 docid 对比 | 百万级 passage 的 scaling 研究 |
| RIPOR | 2311.09134 | UMass | WWW 2024 | RQ relevance docid | RQ 语义 docid + 前缀排序,MS MARCO MRR +30.5% |
| GDR | 2401.10487 | 机构未列 | EACL 2024 | cluster identifier | 生成 cluster-id 再簇内稠密匹配 |
| CorpusLM | 2402.01176 | RUC | SIGIR 2024 | 排序 docid 列表 | 统一生成式检索、闭卷问答、RAG |
| ListGR | 2403.12499 | U. Amsterdam | TOIS 2024 | docid 列表 | listwise 而非 pointwise 优化生成式检索 |
| GR-as-MVDR | 2404.00684 | 山大 + U. Amsterdam | SIGIR 2024 | 理论 | 证明生成式检索与多向量稠密检索共享框架 |
| PAG | 2404.14600 | UMass | SIGIR 2024 | 集合 + 序列量化 docid | 并行集合 ID 引导自回归,22 倍加速 |
| DynamicRetriever | 2203.00537 | RUC | arXiv 2022 | 原子 docid embedding | 早期 model-as-index |
| TDM | 1801.02294 | 阿里 | KDD 2018 | 层级聚类树 | 推荐侧树与层级 ID 召回的祖先 |
| RecForest | OpenReview | 机构未列 | NeurIPS 2022 | 多 k 叉树,层级 k-means | 推荐侧最贴近 DSI 层级 docid,无 arXiv |
| SimCIT ⚠️ | 2506.16683 | 机构未找到 | preprint 2025-06 | 对比量化 item tokenize | 以对比目标构造 SID,打破重建式方法的 item 独立假设 |
六、综述、方法论、数据集与工业落地
综述与方法论
| 文献 | arXiv | 机构 | 年份 | 价值 |
|---|---|---|---|---|
| Discrete Tokenizers Survey | 2502.12448 | 快手 + 港城大 | 2025-02 | 量化方法四分类 + 推荐域方法对照表 |
| Practitioner’s Handbook / GRID | 2507.22224 | Snap | CIKM 2025 Best Resource | RQ-VAE、VQ、RQ-Kmeans、PQ、层级聚类的实证对比 + 开源框架 |
| VQ4Rec | 2405.03110 | PolyU | 2024-05 | 推荐域 VQ 综述,efficiency vs quality |
| GR-LLMs Survey ⚠️ | 2507.06507 | 机构未确认 | 2025-07 | LLM 生成式推荐综述 |
| Survey on Generative Recommendation ⚠️ | 2510.27157 | 机构未确认 | 2025-10 | 数据、模型、任务三视角 |
| Generative Search & Rec in LLM Era ⚠️ | 2404.16924 | 机构未确认 | 2024-04 | 生成式搜索与推荐综述 |
| Cold-Starts in GR: Reproducibility | 2603.29845 | 莱顿 + RUC | 2026-03 | 统一冷启协议对比 atomic、语义、文本 ID |
| AgenticTagger | 2602.05945 | Google / Snap 系 | preprint 2026-02 | LLM agent 协作生成受控词表 item 表示 |
工业界非 arXiv 落地
| 系统或文章 | 公司 | 来源·年份 | SID 状态 | 要点 |
|---|---|---|---|---|
| Home Feed 多目标优化中的 Semantic ID 多样性信号 | 工程博客 2026-04 | 已上线,2025 Q4 | coarse→fine 离散化得分层 SID,作排序多样性信号,非生成式检索 | |
| Towards Generalizable Large-Scale Generative Recommenders | Netflix | Tech Blog 2025-03 | 讨论,未上线 | multi-modal semantic tower 把 embedding 离散为 semantic token,未来方向 |
| The generative recommender behind Shopify’s commerce engine | Shopify | Eng 博客 2026 | 探索中 | 已上线 item-ID 空间生成式召回,明确探索转向 SID token 空间 |
| LLMs to build content embeddings | DoorDash | Eng 博客 2025 | 下一步 | profile embedding 离散成 semantic ID 是明确的下一步 |
| GENIAC 二次流通搜索与推荐基座 | Mercari R4D | 博客 + METI 2026-06 | 研发中 | 40 亿 listing 训练,query 上下文生成 SID 再匹配,日本国家项目 |
七、技术演进脉络
纵观 2017 至 2026,SID 主题沿以下几条线索演进。
7.1 量化方法:从单层到结构化、自适应、可微
单层 VQ-VAE 给出离散表示基座,但码本利用率与冲突难控。RQ-VAE 引入逐级残差量化得到 coarse→fine 有序码,成为生成式工作的默认 tokenizer。工业侧改用 RQ-Kmeans 与 balanced K-means 提高码本利用率,缓解沙漏现象。乘积量化 PQ 与 OPQ 给出无序码集合以支持并行生成。近期方向有三条:lookup-free 的 FSQ 抗坍缩;对比量化用邻域目标替代纯重建;软、可微、变长量化让 tokenizer 端到端可学并按信息量调整码长。
7.2 生成解码范式:自回归到并行与扩散
TIGER 确立逐位自回归生成有序 SID。自回归有串行延迟与顺序偏置两个问题。一条路线改用无序集合或多 token 并行预测,如 SETRec、RPG;另一条路线用掩码离散扩散按任意序并行生成,如 DiffGRM、LLaDA-Rec、MDGR、MaskGR,并出现连续 token 扩散的 ContRec 以规避 argmin 不可导。这是 2025 下半年至 2026 最活跃的方向之一。
7.3 协同信号融合:从纯内容到解耦与统一
纯内容 SID 缺少协同信息。LC-Rec 用对齐微调把协同语义注入码;LETTER 用语义、协同、多样性三正则;DiscRec、DECOR 在 embedding 层解耦语义与协同并加门控;UNGER 把两者统一为一套码以解决语义支配。趋势是从"先内容后对齐"走向"语义与协同联合建模"。
7.4 多模态与端到端可学习
多模态从单一文本扩展到文本、视觉、音频联合量化,如 MMGRec、MME-SID、PSRQ、FusID,并出现把协同特征当作额外模态的 MSCGRec、CARD。tokenizer 训练从两阶段分离走向端到端联合,如 ETEGRec,再到可微软标识符 DIGER、UniGRec 与双层优化 BLOGER,让推荐目标的梯度直接塑造 SID。
7.5 SID 质量、长度与表达力
冲突与坍缩诊断从 Hourglass 现象的揭示,发展到 Purely Semantic Indexing、HiD-VAE 的唯一性保证,再到 QuaSID、AdaSID 的冲突分级处理与 DRQ 的解耦残差量化。长度方向从固定短码扩展到长 SID 并行、变长码、token 剪枝与蒸馏,并有 Expressiveness Limits 从理论上指出树状自回归解码会人为拉近树相邻 item 的分数。
7.6 推理、强化学习与工业化
后训练从约束解码发展到 in-text reasoning 与 CoT,如 OneRec-Think、GREAM,再到以排名为单元的 RL,如 Rank-GRPO、MiniOneRec,以及潜空间推理 LASAR。工业化由 OneRec 端到端替代级联起步,扩散到各厂广告生产系统 GR4AD、GPR、UniVA、NEZHA、CQ-SID,并有 Understanding GR with Semantic IDs 从 44M 到 14B 实证 scaling 瓶颈。
7.7 判别式分线
判别式自 Better Generalization with Semantic IDs 起,沿"SID 作排序特征"展开:Meta 关注 embedding 稳定性与超长序列存储,如 SIDE;阿里、快手用多模态 SID 解冷启动,如 SaviorRec、QARM、GateSID;并扩展到用户侧 tokenization,如 U2QT、DSIRM。判别式与生成式在 LIGER、DIG、Snapchat SID 等工作中开始统一。
横向对比
| 代表工作 | 关键设计 | 量化方法 | 用法 | 代表结果 |
|---|---|---|---|---|
| TIGER | 层级 SID + T5 自回归 | RQ-VAE | 生成式 | 序列推荐 SOTA,具冷启动泛化 |
| Better Generalization | SID 替哈希 ID 作特征 | RQ-VAE | 判别式 | 长尾泛化提升 |
| OneRec | 端到端替代级联 + RL | RQ-Kmeans | 生成式工业 | watch-time +1.6%,承接约 25% 流量 |
| RPG | 多 token 并行生成长 SID | OPQ 无序码 | 生成式 | 长 SID 并行解码 |
| DiffGRM | 掩码离散扩散 | 并行语义编码 | 生成式 | 任意序并行替代自回归 |
| QARM | 多模态 SID 与传统 ID 联合 | RQ-Kmeans | 判别式工业 | 多模态冷启动增强 |
| RecJPQ | PQ 子嵌入共享 | PQ | 判别式 | 内存降 47 倍 |
本文为公开论文与已整理调研材料的客观二次组织与技术综述,数字、机构、venue 与结论以各论文原文为准。多篇为 2025 至 2026 的较新预印本,更新版本中细节、命名与 venue 可能微调;带 ⚠️ 处尤需在引用前核对。










