推荐系统 Semantic ID 论文精读清单

截至 2026-06。整理范围:以 2023–2026 年推荐系统中的 Semantic ID(语义 ID,下称 SID) 为主,奠基方法与信息检索源头单独追溯。按"生成式 / 判别式"两条主线,并在每条主线内按设计思路分组,共收录约 215 项。

本文为已整理调研材料的二次组织与综述:arXiv 编号、机构、venue、关键数字均照搬原始考据,论文未明确给出的标注"未提及",不作推断。带 ⚠️ 的为仍待确认或易混淆之处,已在正文与第八节标注依据。2601.*2606.* 为 2026 年最新预印本。

工业级生成式系统中的快手 OneRec 全系另有独立精读,见 OneRec 系列论文精读清单,本文只作收录与定位,不重复展开。

概览

  • 论文数量:约 215 项。生成式约 150 篇,含工业系统约 33;判别式约 28 篇;信息检索源头约 28 篇;综述 / 方法 / 数据集 8 篇;工业界非 arXiv 落地 5 项。
  • 时间跨度:奠基方法上溯至 2017 年的 VQ-VAE 与 2021–2022 年的信息检索源头,主体集中在 2023-05 的 TIGER 至 2026-06 的最新预印本。
  • 核心范式:把每个 item 用一段离散的、语义结构化的编码表示,取代随机哈希得到的原子 item ID。
    • 生成式:用自回归、并行或扩散解码直接生成目标 item 的 SID token,把推荐重构为序列生成。
    • 判别式:把 SID 当作特征、embedding 或检索单元,喂给召回、粗排、精排,不做生成。
    • 同时具备两种用法的工作如 LIGER、DIG、Snapchat SID 单列;生成式但不使用 SID 的工作如 HSTU、URM、PinRec 列入对照。
  • 主要出品方:学术侧以 RUC、UCSD、USTC、NUS、Google、Meta、Snap 为主;工业侧快手最为多产,阿里系、腾讯、美团、字节、京东、Pinterest、Spotify 等均有规模化落地。

背景: 什么是 Semantic ID 与量化方法骨架

传统推荐用一个随机哈希得到的整数 ID 表示 item,再为每个 ID 学一个 embedding。该方案有两个结构性问题:一是长尾与冷启动 item 的 embedding 训练不充分;二是 ID 之间没有语义关系,相似 item 不共享任何参数。

Semantic ID 的思路是:先用内容或行为信号得到 item 的连续表示 zRd\mathbf{z}\in\mathbb{R}^{d},再用向量量化把它压成一小段离散码 (c1,,cL)(c_1,\dots,c_L)。语义相近的 item 会共享前缀或码字,从而带来可泛化、可生成、可压缩三个性质。量化方法决定了 SID 的结构,是全部工作的分类基础。

量化方法族

量化族 代表方法 机制 典型使用者
单层 VQ VQ-VAE,2017 最近邻查码本 + 直通估计 + commitment loss TokenRec / ColaRec / SEATER 基座
逐级残差量化 RQ-VAE,2022 逐级量化残差,coarse→fine 有序元组 TIGER / LC-Rec / LETTER
残差 K-means RQ-Kmeans 每级对残差做 K-means,码本利用率高 OneRec / QARM,快手
乘积量化 PQ / OPQ 切分子向量分别量化,得无序码集合 VQ-Rec / RPG / RecJPQ
层级聚类与树 balanced k-ary tree 约束聚类成平衡树 SEATER / DSI / NCI
Lookup-free 与 FSQ FSQ / LFQ / RQ-FSQ 每维取整到固定值,无码本,抗坍缩 QARM V2 / Quantizing Intent
对比量化 contrastive quantization 用对比目标替代纯重建目标 CoST / SimCIT
软、可微、变长 Gumbel / capsule routing 可微索引,或按置信度变长 DIGER / CapsID / UniGRec

五个横切维度可用来定位任何一篇工作:①是否融合协同信号 ②单模态或多模态 ③有序短码、无序长码、树或集合 ④是否处理冲突与坍缩 ⑤tokenizer 是否端到端可学习。

四个核心量化公式

单层 VQ-VAE。编码器输出 ze\mathbf{z}_e,在大小为 KK 的码本 {ej}j=1K\{\mathbf{e}_j\}_{j=1}^{K} 中取最近邻:

zq=ek,k=argminj{1,,K}zeej2\mathbf{z}_q=\mathbf{e}_{k},\qquad k=\arg\min_{j\in\{1,\dots,K\}}\lVert \mathbf{z}_e-\mathbf{e}_j\rVert_2

LVQ=xx^22重建+sg[ze]ek22码本+βzesg[ek]22commitment\mathcal{L}_{\text{VQ}}=\underbrace{\lVert \mathbf{x}-\hat{\mathbf{x}}\rVert_2^2}_{\text{重建}}+\underbrace{\lVert \operatorname{sg}[\mathbf{z}_e]-\mathbf{e}_k\rVert_2^2}_{\text{码本}}+\beta\underbrace{\lVert \mathbf{z}_e-\operatorname{sg}[\mathbf{e}_k]\rVert_2^2}_{\text{commitment}}

其中 x\mathbf{x} 为输入、x^\hat{\mathbf{x}} 为解码重建,ze\mathbf{z}_e 为编码器输出的连续隐向量,ej\mathbf{e}_j 为第 jj 个码字、zq\mathbf{z}_q 为量化后隐向量,sg[]\operatorname{sg}[\cdot] 为停止梯度算子,β\beta 为 commitment 权重。argmin\arg\min 不可导,反向传播用直通估计把梯度直接拷给 ze\mathbf{z}_e

逐级残差量化 RQ-VAE。把同一向量在 LL 个码本上逐级量化其残差,得到有序码元组:

r0=ze,cl=argminkrlek(l)2,rl+1=rlecl(l),l=0,,L1\mathbf{r}_0=\mathbf{z}_e,\quad c_l=\arg\min_{k}\lVert \mathbf{r}_l-\mathbf{e}^{(l)}_k\rVert_2,\quad \mathbf{r}_{l+1}=\mathbf{r}_l-\mathbf{e}^{(l)}_{c_l},\quad l=0,\dots,L-1

其中 rl\mathbf{r}_l 为第 ll 级残差,ek(l)\mathbf{e}^{(l)}_k 为第 ll 级码本的第 kk 个码字,LL 为码长即层数,clc_l 为该级选中的码字下标。SID 为有序元组 (c0,,cL1)(c_0,\dots,c_{L-1}),重建为 z^=lecl(l)\hat{\mathbf{z}}=\sum_{l}\mathbf{e}^{(l)}_{c_l}。靠前的码粗、靠后的码细,因此天然适合前缀树解码。这是 TIGER 与多数生成式工作的默认 tokenizer。

残差 K-means。残差递归与 RQ-VAE 相同,区别在于每级码本不是联合训练的可学习参数,而是直接在该级残差集合上做 K-means 得到的聚类中心,不需要解码器。OneRec 进一步用 balanced K-means 强制每簇容量相等,缓解 RQ-VAE 常见的码字分布不均,即"沙漏"现象。

乘积量化 PQ 与 OPQ。把向量切成 MM 段子向量,各段在自己的子码本中独立量化:

z=[z1;;zM],cm=argminkzmek(m)2,m=1,,M\mathbf{z}=[\mathbf{z}^{1};\dots;\mathbf{z}^{M}],\qquad c_m=\arg\min_{k}\lVert \mathbf{z}^{m}-\mathbf{e}^{(m)}_k\rVert_2,\quad m=1,\dots,M

其中 zm\mathbf{z}^{m} 为第 mm 段子向量,ek(m)\mathbf{e}^{(m)}_k 为第 mm 段子码本的第 kk 个码字。SID 为无序码集合 {c1,,cM}\{c_1,\dots,c_M\},适合并行生成。OPQ 在切分前先乘一个正交旋转矩阵 R\mathbf{R},使各段分布更均匀以降低量化失真。


一、奠基与里程碑时间线

下表是贯穿全主题的关键节点,完整收录见第三至第六节的分组清单。

论文 时间 arXiv 一句话核心
VQ-VAE 2017 1711.00937 离散表示学习的基座,单层向量量化 + 直通估计
GENRE 2020-10 2010.00904 最早的自回归 ID 检索,约束 beam 生成实体名
DSI 2022-02 2202.06991 生成式检索源头,T5 把语料编进参数后生成层级 docid
RQ-VAE 2022-03 2203.01941 逐级残差量化,coarse→fine 有序码,多数生成式工作的 tokenizer
P5 2022-03 2203.13366 text-to-text 统一推荐任务的范式起点
VQ-Rec 2022-10 2210.12316 text→code→repr,OPQ 编码,跨域可迁移
TIGER 2023-05 2305.05065 生成式奠基:RQ-VAE 层级 SID + T5 自回归生成
Better Generalization with Semantic IDs 2023-06 2306.08121 判别式奠基:SID 替哈希 ID 作排序特征,提升长尾泛化
LC-Rec 2023-11 2311.09049 对齐微调把协同语义注入 SID,无冲突索引
HSTU 2024-02 2402.17152 生成式推荐 scaling law 奠基,行为 ID 而非 SID,对照工作
LETTER 2024-05 2405.07314 RQ-VAE 加语义、协同、多样性三正则
QARM 2024-11 2411.11739 快手多模态内容量化成可学习 SID 与传统 ID 联合优化
OneRec 2025-02 2502.18965 端到端生成式统一召回与排序并超越级联
FORGE 2025-09 2509.20904 阿里工业级生成式推荐 + SID 基准,140 亿交互
PLUM 2510 2510.07784 Google/YouTube 适配预训练 LM 做工业 GR,十亿级部署
GRID / Practitioner’s Handbook 2507 2507.22224 Snap 出品的量化方法实证对比 + 开源框架

二、奠基论文精读

本主题真正的奠基工作只有少数几篇。这里给出生成式与判别式各自的源头,以及信息检索侧的范式起点,便于建立框架。

1. TIGER — 生成式推荐的奠基

  • arXiv2305.05065|Recommender Systems with Generative Retrieval|Google DeepMind|NeurIPS 2023

动机:传统检索是"item embedding + 近似最近邻",需要为每个 item 维护可学习 embedding,长尾与新 item 学不充分;且检索质量受 ANN 索引限制。TIGER 把检索改写为直接生成目标 item 的标识符

方法:分两步。

  • Tokenizer:取 item 的内容文本,用预训练文本编码器得到语义向量,再用 RQ-VAE 量化成长度 L=3L=3 的有序码元组,即 SID。语义相近的 item 共享前缀码。对落入同一码元组的 item,追加一个去重后缀位以保证唯一。
  • 生成式检索:用 T5 风格的 seq2seq 模型。输入是用户历史 item 的 SID token 串联,输出是下一个 item 的 SID,逐位自回归生成:

p(c1,,cLHu)=l=1Lp(clc<l,Hu)p(c_1,\dots,c_L\mid \mathcal{H}_u)=\prod_{l=1}^{L} p\big(c_l\mid c_{<l},\,\mathcal{H}_u\big)

其中 Hu\mathcal{H}_u 为用户历史的 SID token 序列,clc_l 为目标 item 第 ll 位码。解码用前缀约束的 beam search,保证生成的码元组对应真实 item。

结果:在 Amazon Beauty / Sports / Toys 上全面超越当时的序列推荐基线;因相似 item 共享前缀,对冷启动 item 具备一定泛化与检索能力。

局限:SID 冲突需要去重后缀,破坏纯语义结构;tokenizer 与推荐器分两阶段训练,量化目标与推荐目标不一致。这两点正是后续 G3、G5、G6 多篇工作的改进出发点。

2. Better Generalization with Semantic IDs — 判别式的奠基

动机:工业排序模型普遍用随机哈希得到的 item ID embedding。哈希碰撞是任意的,长尾与新 item 的 embedding 训练不足,泛化差。

方法:用 RQ-VAE 把 item 内容向量量化成 SID,再以 SID 派生的 embedding 替代或补充原来的哈希 ID embedding 作为排序特征。论文系统比较了把 SID 作为特征的几种表示方式,例如逐级码 embedding 拼接,以及 SID 的 N-gram 组合。语义相近的 item 因共享码而共享参数,碰撞从"任意"变为"语义有意义"。

结果:在排序任务上改善泛化,长尾与冷启动 item 的提升尤为明显。该工作确立了"SID 作判别式特征"这条主线,后续 Meta、快手、阿里多篇排序侧工作沿此展开,见第四节 D1。

3. DSI — 信息检索侧的范式起点

  • arXiv2202.06991|Differentiable Search Index|Google|NeurIPS 2022

"SID + 生成式检索"的范式实际起源于信息检索。DSI 用 T5 把整个语料编码进模型参数,给定 query 直接自回归生成目标文档的 docid:

p(docidq)=ip(did<i,q)p(\text{docid}\mid q)=\prod_{i} p\big(d_i\mid d_{<i},\,q\big)

其中 qq 为 query,did_i 为 docid 第 ii 位。docid 用层级 K-means 构造,使语义相近的文档共享前缀。这一"层级语义标识符 + 前缀约束自回归生成"的结构被 TIGER 直接迁移到推荐。完整的信息检索源头清单见第五节。


三、生成式 SID 全景

按设计思路分为 19 组,覆盖奠基、tokenizer 变体、协同对齐、多模态、端到端、新解码范式、长度与表达力、漂移更新、推理与强化学习、多行为、跨域、图与 trie、偏置鲁棒、冷启动、推理效率、垂类、搜推联合、工业系统、非 SID 对照。

3.1 生成式奠基范式

论文 arXiv 机构 会议·年份 SID 构造 核心设计思路
P5 2203.13366 Rutgers RecSys 2022 数字 / 文本 ID text-to-text 统一推荐任务的范式起点
VQ-Rec 2210.12316 RUC + UCSD WWW 2023 OPQ text→code→repr,跨域可迁移
TIGER 2305.05065 Google DeepMind NeurIPS 2023 RQ-VAE 奠基工作,RQ-VAE 层级 SID + T5 自回归生成
How to Index Item IDs 2305.06569 Rutgers SIGIR-AP 2023 RID / IID / SID / CID / SemID 系统对比多种 item 索引方式

3.2 Item Tokenizer 设计变体

论文 arXiv 机构 会议·年份 SID 构造 核心设计思路
SEATER 2309.13375 RUC SIGIR-AP 2024 平衡 k 叉树 树结构 identifier + 对比学习对齐层级
LMIndexer 2310.07815 UIUC + Amazon ICML 2024 LM 端到端生成 SID LM 自监督直接生成语义 ID
IDGenRec 2403.19021 Rutgers SIGIR 2024 文本 ID 自然语言 token 组成语义 ID,zero-shot 跨平台
GPTRec 2306.11114 U. Glasgow Gen-IR@SIGIR 2023 SVD 量化 sub-id GPT-2 自回归逐 item 生成 sub-item token
TransRec 2310.06491 NUS + USTC KDD 2024 多面 identifier,ID + title + attr 生成多面 ID 再 grounding 到真实 item
BIGRec 2308.08434 USTC TORS 2025 文本 item token 两步 grounding,先生成 item token 再接地
TokenRec 2406.10450 PolyU TKDE 2025 Masked VQ 掩码 VQ,免 beam search
UTGRec 2504.04405 RUC 高瓴 + 腾讯微信 preprint 2025-04 MLLM + 树码本 通用 tokenizer,跨域可迁移
MTGRec ⚠️ 2504.04400 RUC 高瓴 + 华为 SIGIR 2025 ⚠️ 多 identifier,RQ-VAE checkpoint 多 identifier 数据增强
SIIT 2412.17171 UT Austin + Snap preprint 2024-12 自改进 tokenization 训练中按 LLM 理解调整 token
ActionPiece 2502.13581 Google DeepMind ICML 2025 上下文感知,类 BPE 同一 action 按上下文分配不同 token
Pctx 2510.21276 UCSD preprint 2025-10 个性化、上下文 SID 同一 item 按用户意图分不同 SID,NDCG +11.4%
GRAM 2506.01673 高丽大学 ACL 2025 语义到词法翻译编码 把 item 关系译进 LLM 词表 + 多粒度后融合
ReSID 2602.02338 中南大学 + Shopee + NTU preprint 2026-02 FAMAE + GAOQ,非 LLM 推荐原生 tokenizer,tokenization 成本降 122 倍
CoFiRec 2511.22707 UIUC + Meta + UCSD preprint 2025-11 多层级独立 tokenize 粗到细自回归,意图渐进细化
ELMRec ⚠️ 2409.19979 NTU EMNLP 2024 全词 embedding,无码本 增强高阶交互感知,边界工作,非码本 SID

3.3 协同信号与语义对齐码本

论文 arXiv 机构 会议·年份 SID 构造 核心设计思路
LC-Rec 2311.09049 RUC + 腾讯 ICDE 2024 RQ-VAE + 均匀映射 对齐微调注入协同语义,无冲突索引
CoST 2404.14774 华为诺亚 RecSys 2024 对比量化 量化时引入 item 邻域关系
ColaRec 2403.18480 山大 + 腾讯 CIKM 2024 CF 模型 GID 对比损失对齐内容空间与协同空间
LETTER 2405.07314 USTC + NUS CIKM 2024 RQ-VAE + 三正则 语义、协同、多样性,缓解码分配偏置
Mixture-of-Codes 2410.09560 清华 + 腾讯 preprint 2024-10 多码本 多码本扩大语义表示规模
Semantic Convergence 2412.13771 美团 AAAI 2025 行为语义 tokenization 两阶段对齐缩小稀疏协同与 LLM 稠密 token 的差距
UNGER 2502.06269 华科 + 华为 TOIS 2025 统一 Unicode 语义与协同统一为一套码,解决语义支配问题
CCFRec 2503.12183 RUC KDD 2025 多视角文本 VQ 语义码 语义码缩小文本与协同表示的差距
DiscRec 2506.15576 华科 + USTC preprint 2025-06 双分支解耦 embedding 层解耦语义与协同 + 门控
DECOR 2509.10468 UIUC SIGIR 2026 解耦上下文 token 保留 LM 知识同时让 token 适应交互上下文
Align³GR 2511.11255 快手 AAAI 2026 Oral 双 tokenization token、行为、偏好三级对齐 + 渐进 DPO
TS-Rec 2602.22632 USTC preprint 2026-02 token 级语义 SID 初始化 对齐共享 item-cluster 语义

3.4 多模态 SID 生成式

论文 arXiv 机构 会议·年份 SID 构造 核心设计思路
MMGRec 2404.16555 山大 + 蒙纳士 preprint 2024-04 Graph RQ-VAE 多模态与协同融合量化成 Rec-ID
EAGER 2406.14017 浙大 + 阿里 KDD 2024 双流,行为 + 语义 行为流与语义流并行 + 全局对比
MQL4GRec 2504.05314 中山大学 + 鹏城实验室 ICLR 2025 多模态量化"语言" 各模态 VQ 成共享词表,跨域迁移
EAGER-LLM 2502.14735 浙大 + 华为 WWW 2025 行为与语义注入 双流迁到 decoder-only LLM
MME-SID 2509.02017 港城大 + 腾讯 CIKM 2025 MM-RQ-VAE 多模态 embedding + SID,缓解 embedding collapse
MACRec 2511.15122 北航 + 美团 AAAI 2026 Oral 多面跨模态量化 跨模态量化降冲突 + 多面对齐
TriAlignGR 2605.05249 东南大学 + 清华 preprint 2026-05 VLM 文本 + 多模态 SID 8 任务联合对齐,缓解 SID 内容退化与语义不透明
CEMG 2512.21543 CMU + UCLA 等 preprint 2025-12 RQ-VAE + 协同引导 协同引导多模态融合得 RQ-VAE 码再交 LLM 生成
MSCGRec 2602.03713 Meta AI preprint 2026-02 DINO 自监督图像量化 把协同特征当额外模态融合
CARD 2604.26427 电子科大 preprint 2026-04 非均匀量化 平衡偏斜语义分布,统一文本、视觉、协同
Text-as-Vision×SID 2601.14697 昆士兰大学 + 港城大 preprint 2026-01 多模态 SID 实证"文本当视觉"对 SID 生成式推荐的影响

3.5 端到端与可微 SID 学习

论文 arXiv 机构 会议·年份 SID 构造 核心设计思路
ETEGRec 2409.05546 RUC SIGIR 2025 RQ-VAE 端到端 tokenizer 与推荐器端到端联合 + 双对齐
BLOGER 2510.21242 USTC SIGIR 2026 双层优化 元学习 + 梯度手术耦合 tokenizer 与推荐器
UniGRec 2601.17438 USTC + eBay preprint 2026-01 软标识符,可微 连续分配概率替代硬码字 + 均匀正则抗坍缩
DIGER 2601.19711 格拉斯哥 + 莱顿 SIGIR 2026 Gumbel 可微索引 推荐梯度直接塑造 SID
UniSID 2602.10445 腾讯 + 武大 preprint 2026-02 端到端 SID,广告 联合优化 embedding 与 SID,Hit Rate +4.62%
R3-VAE 2604.11440 字节,今日头条 preprint 2026-04 参考向量引导 RQ-VAE 语义锚点稳定 SID 训练,Recall@10 +14.5%
GenRetr-SPC DOI 3792862 阿里巴巴 WWW 2026 short EMA 码本 + restart 联合学 embedding 与码本 + 同商品簇约束

3.6 新解码范式:并行、无序、集合、扩散

论文 arXiv 机构 会议·年份 SID 构造 核心设计思路
SC-Rec ⚠️ 2408.08686 韩国 POSTECH 系 preprint 2024-08 双异构索引树 协同树与语义树做 self-consistency 重排,最新版改名 MVIGER
STORE ⚠️ 2409.07276 PolyU + 华为 preprint 2024-09 单 LLM 统一 单一 LLM 同时做 tokenization 与推荐,最新版改名 LAMIA
SETRec 2502.10833 NUS SIGIR 2025 无序集合 identifier order-agnostic token 集合,并行生成
RPG 2506.05781 UCSD + Meta KDD 2025 OPQ 无序长 SID,长度 ≤ 64 多 token 预测并行生成长 SID
HiD-VAE 2508.04618 吉大 + 港城大 preprint 2025-08 层级监督量化 多级标签监督 + uniqueness loss
Purely Semantic Indexing 2509.16446 UCSD preprint 2025-09 ECM / RRS 不加随机后缀即保证 SID 唯一
ContRec 2504.12007 PolyU WWW 2026 σ-VAE 连续 token 连续 token 扩散,规避 argmin 不可导
DiffGRM 2510.21805 快手 WWW 2026 并行语义编码 掩码离散扩散替代自回归,任意序并行
LLaDA-Rec 2511.06254 RUC preprint 2025-11 离散扩散并行 扩散 + 双向注意力并行生成 SID
MaskGR 2511.23021 UT Austin + Snap preprint 2025-11 标准 SID 掩码扩散建模用户 SID 序列,提升粗粒度召回
MDGR 2601.19501 阿里国际 + 武大 preprint 2026-01 重设计 codebook 从 codebook、训练、推理三方面重塑扩散 GR
Time-Aware Diffusion 2606.01670 中南大学 + RUC + PolyU preprint 2026-06 SID 上时间感知扩散 偏好解耦为周期性与近期触发
CapsID ⚠️ 2605.05096 机构未找到 preprint 2026-05 capsule 软路由变长 按置信度软路由变长 SID,缓解 tokenizer 瓶颈

3.7 SID 长度、表达力与剪枝

论文 arXiv 机构 会议·年份 关注点 核心设计思路
RASTP 2511.16943 浙大系 preprint 2025-11 token 剪枝 按 magnitude × attention 剪低信息 token,训练 −26.7%
STAMP 2604.05329 浙大 + 阿里 preprint 2026-04 语义剪枝 + 多步预测 前向动态裁剪冗余 token + 多 token 目标,缓解语义稀释
ACERec 2602.13573 南科大 + 南大 + 西交 preprint 2026-02 长 SID 蒸馏 Attentive Token Merger 蒸馏长 SID,NDCG +14.4%
Variable-Length SID 2602.16375 HSE University preprint 2026-02 变长码 Discrete-VAE,高频 item 短码、稀有 item 长码
Expressiveness Limits 2605.06331 UCSD preprint 2026-05 理论 树状自回归解码使树相邻 item 的分数被人为拉近
VarLenRec 2605.17779 华师大 preprint 2026-05 变长 tokenization 按流行度自适应 SID 长度
Asymmetric GR,MHQ 2605.14512 清华 + 腾讯 preprint 2026-05 多面层级量化 输入连续投影、输出多级离散 SID 解耦,约 16% 提升

3.8 SID 漂移、陈旧与持续更新

论文 arXiv 机构 会议·年份 关注点 核心设计思路
Mitigating Collaborative SID Staleness 2604.13273 AI VK + ITMO SIGIR 2026 SID 陈旧 轻量、模型无关的 SID 重对齐,算力约降 8–9 倍
DACT 2603.29705 复旦 + MSRA preprint 2026-03 漂移感知持续 tokenization 漂移与平稳 item 差异化优化 + 层级码重分配
GTI 2604.02324 UW-Madison + LinkedIn 等 preprint 2026-04 新 token 词表初始化 新 item 与新 SID token 在预训练空间语言学接地

3.9 推理与强化学习后训练

论文 arXiv 机构 会议·年份 SID 方案 核心设计思路
SIDReasoner 2603.23183 NUS preprint 2026-03 RQ-VAE 式 SID 强化 SID token 与语言理解的关联,推理不依赖大量数据
LASAR 2605.10207 北航 + 百度 preprint 2026-05 潜空间推理 隐状态多步潜推理,grounding SID 防漂移
MiniOneRec 2510.24431 USTC + NUS preprint 2025-10 RQ-VAE SID 首个全开源 GR 框架,SFT + 约束解码 + RL,0.5B–7B scaling
GREAM 2510.20815 浙大 + 上交 preprint 2025-10 协同与语义对齐离散索引 CoT 推理课程 + SRPO,支持直接与推理双模
Rank-GRPO / ConvRec-R1 2510.20150 Netflix + UVA + Cornell ICLR 2026 SID / item identifier 以排名位次为 RL 单元,对话推荐
VRec 2603.07725 NUS + Meta preprint 2026-03 SID reason-verify-recommend,mixture-of-verifiers
UGR 2602.11719 USTC preprint 2026-02 分层 SID 不确定性加权奖励 + 置信对齐,亦属校准

3.10 多行为生成式

论文 arXiv 机构 会议·年份 SID 构造 核心设计思路
MBGen 2405.16871 UCSD CIKM 2024 平衡 SID + 平衡 Chunked ID 两步自回归先行为后 item + 位置路由专家
GAMER 2511.03155 清华 + 快手 preprint 2025-11 预训练 side-info SID decoder-only 跨层交互建模分层行为,发布短视频多行为数据集
GRACE 2507.14758 Walmart RecSys 2025 RQ-VAE + CoT 属性 token Journey-aware 稀疏注意力,可解释多行为生成

3.11 跨域、多域统一与可迁移

论文 arXiv 机构 会议·年份 SID 构造 核心设计思路
GenCDR 2511.08006 西交利物浦 + 利物浦 AAAI 2026 域自适应解耦 SID 通用 encoder + 域 adapter 动态路由 + 域感知前缀树
GMC 2507.12871 USTC + NUS + 腾讯 preprint 2025-07 RQ-VAE 域共享 SID 多目标跨域统一 seq2seq + 域对比
UniTok 2511.12922 延世大学 AAAI 2026 MoE tokenizer 一次 tokenize 跨域复用,互信息校准

跨域可迁移设计另见 UTGRec、VQ-Rec、MQL4GRec。

3.12 图与 trie 结构及解码约束

论文 arXiv 机构 会议·年份 SID 构造 核心设计思路
CONGRATS 2510.10127 北大 + 快手 KDD 2026 SID + 图结构解码 图结构多路径探索,缓解似然陷阱
TrieRec 2602.21677 浙大 + 蚂蚁集团 preprint 2026-02 分层 SID 诱导 trie trie 拓扑注入注意力位置编码
SimGR 2602.07847 中南大学等 preprint 2026-02 SID 训推共享管线,消除 token 级与 item 级分布偏差
Vectorizing the Trie ⚠️ 2602.22647 机构未找到 preprint 2026-02 SID + trie 把 trie 约束解码向量化以适配加速器

3.13 偏置、公平、长尾与鲁棒

论文 arXiv 机构 会议·年份 SID 构造 核心设计思路
CRAB ⚠️ 2604.05113 机构未找到 preprint 2026-04 离散语义 token codebook 再平衡缓解流行度偏置
GenPlugin 2507.03568 厦门大学 preprint 2025-07 双编码器共享解码器 概率替换 token 缓解曝光偏置 + 检索增强长尾
ADC-SID 2510.25622 阿里国际 + 武大 preprint 2025-10 自适应行为与内容对齐 长尾 item 协同噪声去噪

3.14 生成式冷启动与归纳

论文 arXiv 机构 会议·年份 SID 构造 核心设计思路
SpecGR 2410.02939 UCSD AAAI 2026 Oral 同 tokenizer 给新 item 编 SID drafter 提含新 item 的候选,GR 当 verifier,归纳推荐未见 item
GenRecEdit 2603.14259 RUC + 对外经贸大学 preprint 2026-03 SID 首个 GR 模型编辑框架,缓解冷启动塌缩

3.15 推理效率、蒸馏与 serving

论文 arXiv 机构 会议·年份 关注点 核心设计思路
SID-MLP 2605.12617 UCSD + Snap preprint 2026-05 蒸馏 把重型 decoder 蒸馏成位置专属 MLP 头,8.74 倍加速

工业侧推理加速见 3.18 的 NEZHA;解码约束见 3.12。

3.16 垂类:POI、音乐、新闻、地图

论文 arXiv 机构 会议·年份 SID 构造 核心设计思路
GNPR-SID 2506.01375 电子科大 KDD 2025 RQ-VAE POI-SID + diversity 首个 next-POI 的 LLM 生成式推荐,准确率 +16%
KGTB 2509.12350 武汉科技大学 + 武大 preprint 2025-09 知识图谱 tokenization KG 节点量化成 structural ID + 多行为指令微调,POI
GeoGR 2602.10411 高德 AMAP preprint 2026-02 geo-aware SID 地理约束共访 POI 对 + 对比 + 迭代精炼
GenPOI 2605.03397 北京交大 + 腾讯地图 preprint 2026-05 Geo-Semantic POI token 空间感知 POI 生成 + proximity 约束解码
Music-SID,SiriusXM 2507.18800 SiriusXM / Pandora preprint 2025-07 SID 千万级曲库 next-song 用 SID
FusID 2601.08764 UCSD preprint 2026-01 多模态融合 SID + PQ 音频、标签、歌词联合编码,零冲突,playlist 续接
PSRQ 2508.20359 网易云音乐 + 杭电 CIKM 2025 渐进语义残差量化 音乐多模态联合兴趣建模
Intent-Driven News 2605.07613 腾讯 PCG + 中山大学 ACL 2026 Industry Oral LLM 意图到层级 SID 前缀 Generate-then-Match 保证对话新闻推荐 grounded

3.17 搜索与推荐联合及生成式搜索

论文 arXiv 机构 会议·年份 SID 构造 核心设计思路
Joint Search & Rec 2508.10478 Spotify RecSys 2025 LBR 统一与任务专属 SID 对比 联合微调 bi-encoder 得统一 SID 空间最优
GenSAR 2504.05730 RUC + 快手 RecSys 2025 语义与协同双标识符 生成式统一搜索与推荐,平衡两类信息
C2T-ID 2510.19221 中科院计算所 + 阿里 SIGIR-AP 2025 语义码本到文本 docid 高频元数据关键词替换数字标签
Hi-Gen 2404.15675 阿里 ICDM 2024 层级编码解码 docid DSI 式层级生成式检索用于电商搜索召回

3.18 工业级大规模生成式系统

快手 OneRec 全系。下表只作收录与定位,完整精读见 OneRec 系列论文精读清单

系统 arXiv 时间 SID 方案 核心设计思路
OneRec 2502.18965 2025-02 RQ-Kmeans 多模态 SID 端到端统一召回与排序并超越级联,承接约 25% 流量
OneRec Tech Report 2506.13695 2025-06 同上 MFU 优化 + 训练与部署细节
OneRec-V2 2508.20900 2025-08 同上 Lazy Decoder-Only,算力降 94%,扩到 8B
OneRec-Think 2510.11639 2025-10 RQ-VAE itemic token + 推理 生成 item 前做 in-text reasoning
OneReason 2606.06260 2026-06 itemic token grounding OneRec 系加推理,三级 cognition CoT
DualGR 2511.12518 2025-11 SID + S2D 长短期兴趣双分支 + Search-based SID Decoding
GLASS 2602.05663 2026-02 SID-Tier 长序列映射成统一兴趣向量增强首位 SID token + 语义硬检索
GR4AD 2602.22732 2026-02 UA-SID 统一广告 SID 广告生产级 GR,LazyAR + 动态 Beam,延迟 < 100ms,广告收入 +4.2%
OneSug 2506.06913 2025-06 query 文本 token,非 item SID 端到端生成式电商 query suggestion
OneSearch 2509.03236 2025-09 KHQE,RQ-Kmeans 3 级 + OPQ 2 段 端到端统一替代召回、预排、精排,订单 +3.22%

其他厂商

系统 arXiv 机构 会议·年份 SID 方案 核心设计思路
HSTU 2402.17152 Meta ICML 2024 非 SID,行为 ID 生成式推荐 scaling law 奠基,1.5T 参数
LIGER 2411.18814 Meta preprint 2024-11 RQ-VAE SID + dense 生成式与稠密检索融合补冷启动,边界工作
COBRA 2503.02453 百度 preprint 2025-03 稀疏 SID + 稠密级联 先生成粗 SID 再生成稠密向量,转化 +3.6%
PLUM 2510.07784 Google / YouTube WWW 2026 SID tokenization 适配预训练 LM 做工业 GR,YouTube 十亿级部署
UniPinRec 2606.00422 Pinterest arXiv 2026-06 共享 transformer,不显式 SID 统一检索与排序消除参数冗余 + 跨阶段 KV 共享
FORGE 2509.20904 阿里 / 淘宝 preprint 2025-09 RQ-VAE 3×8192 + 多模态 + 协同 工业 GR 与 SID 基准,140 亿交互,首页成交 +0.35%
NEZHA 2511.18793 阿里 / 淘宝广告 WWW 2026 GR 推理加速,不改 SID self-drafting 投机解码,驱动十亿级广告收入
CQ-SID 2605.14434 阿里淘天 preprint 2026-05 类目感知对比 RQ-VAE 层级 cluster ID + 专家引导 GRPO,覆盖 50% 以上生产曝光
MTGR 2505.18654 美团 CIKM 2025 非 SID,HSTU 特征 token FLOPs 达 DLRM 的 65 倍,全量上线,边界工作
EGA-V2 2505.17549 美团 preprint 2025-05 层级 tokenization + 多 token 预测 端到端生成式广告统一兴趣、POI、创意、分配、计费
DOS 2602.04460 美团 WWW 2026 short 双流正交量化 SID 协同对齐码本与生成空间,部署数亿用户
MBGR 2604.02684 美团 preprint 2026-04 Business-aware SID,BID 业务专属 SID 防多业务共用单一 SID 空间混淆
GPR 2511.10138 腾讯 / 微信视频号广告 arXiv 2025-11 RQ-Kmeans,L=4 广告与内容共享多级 SID 空间 + 异构层次解码器
UniVA 2605.05803 腾讯 / 微信视频号广告 preprint 2026-05 Commercial SID 变现价值注入 SID 构造 + Generation-as-Ranking
Tencent Ad Challenge 2025 2604.04976 腾讯 preprint 2026-04 全模态 GR 数据集 + SID 构造 开放全模态 GR 基准 TencentGR-1M / 10M
GenRec 2604.14878 京东 preprint 2026-04 SID + Token Merger 压缩 page-wise 训练 + Token Merger 压缩,App 点击 +9.5%
UniRec 2604.12234 Shopee preprint 2026-04 SID + 属性链前缀 SID 前缀加结构化属性 token 做判别式特征交叉
Spotify GLIDE 2603.17540 Spotify preprint 2026-03 SID,离散播客目录 生产级播客生成式检索,新节目发现 +14.3%
LEMUR ⚠️ 2511.10962 字节 / 抖音搜索 arXiv 2025-11 端到端多模态,疑无离散 SID 首个 raw-data 端到端多模态推荐

3.19 生成式但非 SID 的对照与反例

这些工作常与 SID 生成式推荐并列讨论,但 item 表示不是量化语义码,列此以澄清边界。

系统 实际 item 表示 说明
HSTU,Meta 原始行为或类别 ID 生成式 transduction,非量化 SID
MTGR,美团 HSTU + DLRM 特征 行为与特征 token
URM,阿里 2502.03041 multi-query 表示 LLM 通用检索器,非层级码本
LUM,阿里 2502.08309 user / item embedding 大用户模型三步范式
GenRank,小红书 2505.04180 item + action embedding 生成 action 而非 item SID
小红书搜索 RL 2512.00968 全文文本 生成相关性标签
JD Generative CTR 2507.11246 生成式预训练 无 SID
PinRec,Pinterest 2504.10507 实值向量 刻意放弃离散 SID 以规避坍缩,已上线 Homefeed 与 Search
RecGPT,阿里 2507.22879 LLM 生成的 tag 语义信号 三塔,非 RQ-VAE SID,淘宝全量上线
RankMixer,字节 2507.15551 特征交互 纯排序 scaling
Taobao 生成式重排 2505.07197 生成排列 list-level 重排
OneSug,快手 query 文本 token query suggestion

四、判别式 SID 全景

判别式把 SID 当作特征、embedding 或检索单元,不做生成。按用途分八组。

4.1 SID 作排序特征

替代或补充随机哈希得到的 item ID embedding。

论文 arXiv 机构 会议·年份 SID 构造 核心设计思路 环节
Better Generalization with Semantic IDs 2306.08121 Google RecSys 2024 RQ-VAE 判别式奠基,SID 替哈希 ID 提升长尾泛化 精排
Embedding Stability with Semantic ID 2504.02137 Meta RecSys 2025 层级聚类 + prefix-ngram 语义有意义的碰撞,解表征漂移,已产线化 精排,广告
SIDE 2506.16698 Meta AdKDD 2025 DPCA + VQ-fusion 无需 embedding table 还原 latent,解超长序列存储 精排 + 序列
Discrete Semantic Tokenization 2403.08206 PolyU + NUS + 华为 WWW 2024 离散 token user 与 item 统一 token 化,约 200 倍压缩 精排,CTR
Q-BERT4Rec 2512.02474 上海理工大学 preprint 2025-12 RVQ 多模态 SID 量化多模态语义 token 替代任意 item ID 序列 + 精排
SaviorRec 2508.01375 阿里 / 淘宝 preprint 2025-08 RQ-SID + 动态码本 多模态表征对齐行为空间预测 CTR,点击 +13.21% 精排,冷启
COINS 2510.12604 快手 WWW 2026 RQ-OPQ 编码 SID 增强冷启 item 表征做电商搜索 CTR,买家 +3.5% 精排,冷启
SID-Coord 2604.10471 快手 SIGIR 2026 层级可训练 SID 协调哈希 ID 的记忆性与 SID 的泛化性,门控融合 精排,搜索
GateSID 2603.22916 阿里国际 AIDC preprint 2026-03 RQ-VAE 多模态 按 item 成熟度自适应门控平衡语义与协同,GMV +2.6% 精排,冷启
Quantizing Intent 2606.01396 LinkedIn preprint 2026-06 RQ-FSQ 自然流量跨域行为压成 SID 补稀疏广告排序信号 精排

4.2 SID 用于召回

双塔、近似最近邻、聚类语义 ID。

论文 arXiv 机构 会议·年份 SID 构造 核心设计思路 环节
Trinity 2402.02842 快手 / 抖音 preprint 2024-02 实时聚类统一 ID 统一 cluster-ID 建模多兴趣、长尾、长期兴趣 召回
M3CSR DOI 3688098 快手 RecSys 2024 多模态聚类类目 ID 多模态聚成行为对齐类目 ID,无 arXiv 召回

4.3 多模态内容量化成 SID 作特征

面向冷启动与全链路对齐。

论文 arXiv 机构 会议·年份 SID 构造 核心设计思路 环节
QARM 2411.11739 快手 preprint 2024-11 RQ-Kmeans 多模态特征转可学习 SID 与传统 ID 联合优化 召回 + 精排
QARM V2 2602.08559 快手 preprint 2026-02 Res-Kmeans FSQ LLM 增强终身序列,SID 增强 GSU 与 ESU 序列 + 排序
DAS 2508.10584 快手,广告 CIKM 2025 RQ-VAE,MLLM embedding 一阶段量化 + 双对齐,服务 4 亿以上用户 召回 + 排序
MMQ ⚠️ 2508.15281 阿里系,待确认 WSDM 2026 Mixture-of-Quantization shared-specific 专家平衡跨模态协同与独特性 召回 / 排序
Taobao Display Ads Multimodal 2407.19467 阿里 / 淘宝 CIKM 2024 多模态表征,离散化待确认 多模态表征增强 ID-based 排序 召回 + 排序

4.4 超长用户序列建模中的 SID

论文 arXiv 机构 会议·年份 SID 构造 核心设计思路 环节
UxSID 2605.09040 快手,广告 preprint 2026-05 Semantic IDs semantic-group 共享兴趣记忆 + 双层注意力,营收 +0.337% 序列 + 精排

4.5 SID 质量提升:冲突与坍缩诊断

论文 arXiv 机构 会议·年份 机制 核心设计思路
Breaking the Hourglass Phenomenon 2407.21488 京东 + 中南大学 + 清华深圳 EMNLP 2024 Industry RQ 坍缩诊断 揭示 RQ 的沙漏现象即中间层码过度集中并做利用率修复
QuaSID 2603.00632 快手电商 preprint 2026-02 冲突分级 Hamming-guided 斥力只惩罚有害冲突,GMV-S2 +2.38%
AdaSID 2604.23522 快手电商 preprint 2026-04 自适应碰撞处理 按局部碰撞负载自适应调节斥力,GMV +0.98%
DRQ 2606.01844 Shopee preprint 2026-06 解耦残差量化 解耦几何重建与分布匹配,诊断码字 overlap 得鲁棒 SID

4.6 内存高效与混合 ID

论文 arXiv 机构 会议·年份 SID 构造 核心设计思路
RecJPQ 2312.06165 U. Glasgow WSDM 2024 联合 PQ sub-item ID PQ 式子嵌入共享,SASRec 与 BERT4Rec 内存降 47 倍
H2Rec 2512.10388 港城大 + 小红书 preprint 2025-12 SID + Hash ID 融合 头部用 Hash、尾部用 SID,标题 Best of Both Worlds
LLM2Rec ⚠️ 2506.21579 NUS + USTC + SMU KDD 2025 CF 感知语义 embedding,非码本 LLM 作 item embedding 模型,边界工作,非 SID token

4.7 用户侧 tokenization

论文 arXiv 机构 会议·年份 SID 构造 核心设计思路
U2QT 2508.00956 蚂蚁集团 preprint 2025-08 multi-view RQ-VAE,用户 把用户多源行为压成统一量化 token,内存降 84 倍
DSIRM 2606.04374 阿里淘天 preprint 2026-06 query-bridged 对比量化 query-item 交互监督量化,query 侧 LLM 预测 item SID

4.8 生成与判别混合及统一

  • LIGER2411.18814,Meta——生成式产候选,再用稠密检索做 SID embedding 的检索与重排,补冷启动。
  • DIG2605.14853,单作者机构未署,2026-05——把 tokenizer 嵌入判别式排序端到端训练,论证排序与检索是不同粒度的同一 argmax 问题,分别在 item 空间与 token 空间。
  • Semantic IDs at Snapchat2604.03949,Snap,SIGIR 2026 Industry——RQ 有序码 SID 既作判别式特征也可作生成式 token,重点是计算效率与产线集成的权衡。
  • Understanding GR with Semantic IDs2509.25522,MSU + Snap——SID 的 scaling 瓶颈实证,覆盖 44M 至 14B。

五、信息检索生成式检索源头

"SID + 生成式检索"的范式真正起源于信息检索。下列为常被推荐 SID 论文引用的源头工作,非推荐论文。

论文 arXiv 机构 会议·年份 docid 构造 核心思路
GENRE 2010.00904 Meta + UCL ICLR 2021 实体名串 最早的自回归 ID 检索,约束 beam 生成实体名
SEAL 2204.10628 Meta + UCL NeurIPS 2022 n-gram + FM-index 生成可区分 n-gram 再映回文档
DSI 2202.06991 Google NeurIPS 2022 层级 k-means 语义 docid 源头,T5 把语料编进参数后自回归生成 docid
NCI 2206.02743 MSRA NeurIPS 2022 层级 k-means docid prefix-aware 解码器 + query 生成 + 一致性正则
DSI-QG 2206.10128 UQ + Google arXiv 2022 DSI docid 用生成伪 query 做索引,修正索引与检索失配
DSI++ 2212.09744 Google + CMU EMNLP 2023 DSI docid 持续学习版,新增文档不遗忘
IncDSI 2307.10323 Cornell ICML 2023 DSI docid 约束优化实时插入新文档,20–50ms
GenRet 2304.04171 山大 + 百度 + 莱顿 NeurIPS 2023 学习式离散 docid 离散自编码端到端学 docid,学习式 tokenizer 源头
GERE 2204.05511 中科院 SIGIR 2022 标题 + 句子 id 首个生成式证据检索
CorpusBrain 2208.07652 中科院 CIKM 2022 标题 docid 预训练生成式检索器,KILT
Ultron 2208.09257 RUC + 华为 arXiv 2022 URL 与 PQ 语义 docid 三阶段训练,普及 URL 与 PQ 语义 docid
TOME 2305.11161 百度 + RUC ACL 2023 tokenized URL 先生成 passage 再生成 URL
MINDER 2305.16675 PolyU + MS ACL 2023 多视图 ID,标题 + 子串 + query 多 identifier 视图任一检索
TSGen 2305.13859 RUC + 华为 SIGIR 2024 term-set docid docid 为词集合,置换不变解码
SE-DSI 2305.15115 RUC + 中科院 + 百度 KDD 2023 描述式 docid 认知学习策略启发的描述性 docid
LTRGR 2306.15222 PolyU + MS AAAI 2024 MINDER 多视图 ID 加 passage rank loss 对齐排序目标
GR-as-DR,Tied-Atomic 2306.11397 U. Amsterdam arXiv 2023 绑定原子 docid 证明原子生成式检索近似稠密检索
GR Scaling Study 2305.11841 Google + Waterloo EMNLP 2023 atomic / naive / 语义 docid 对比 百万级 passage 的 scaling 研究
RIPOR 2311.09134 UMass WWW 2024 RQ relevance docid RQ 语义 docid + 前缀排序,MS MARCO MRR +30.5%
GDR 2401.10487 机构未列 EACL 2024 cluster identifier 生成 cluster-id 再簇内稠密匹配
CorpusLM 2402.01176 RUC SIGIR 2024 排序 docid 列表 统一生成式检索、闭卷问答、RAG
ListGR 2403.12499 U. Amsterdam TOIS 2024 docid 列表 listwise 而非 pointwise 优化生成式检索
GR-as-MVDR 2404.00684 山大 + U. Amsterdam SIGIR 2024 理论 证明生成式检索与多向量稠密检索共享框架
PAG 2404.14600 UMass SIGIR 2024 集合 + 序列量化 docid 并行集合 ID 引导自回归,22 倍加速
DynamicRetriever 2203.00537 RUC arXiv 2022 原子 docid embedding 早期 model-as-index
TDM 1801.02294 阿里 KDD 2018 层级聚类树 推荐侧树与层级 ID 召回的祖先
RecForest OpenReview 机构未列 NeurIPS 2022 多 k 叉树,层级 k-means 推荐侧最贴近 DSI 层级 docid,无 arXiv
SimCIT ⚠️ 2506.16683 机构未找到 preprint 2025-06 对比量化 item tokenize 以对比目标构造 SID,打破重建式方法的 item 独立假设

六、综述、方法论、数据集与工业落地

综述与方法论

文献 arXiv 机构 年份 价值
Discrete Tokenizers Survey 2502.12448 快手 + 港城大 2025-02 量化方法四分类 + 推荐域方法对照表
Practitioner’s Handbook / GRID 2507.22224 Snap CIKM 2025 Best Resource RQ-VAE、VQ、RQ-Kmeans、PQ、层级聚类的实证对比 + 开源框架
VQ4Rec 2405.03110 PolyU 2024-05 推荐域 VQ 综述,efficiency vs quality
GR-LLMs Survey ⚠️ 2507.06507 机构未确认 2025-07 LLM 生成式推荐综述
Survey on Generative Recommendation ⚠️ 2510.27157 机构未确认 2025-10 数据、模型、任务三视角
Generative Search & Rec in LLM Era ⚠️ 2404.16924 机构未确认 2024-04 生成式搜索与推荐综述
Cold-Starts in GR: Reproducibility 2603.29845 莱顿 + RUC 2026-03 统一冷启协议对比 atomic、语义、文本 ID
AgenticTagger 2602.05945 Google / Snap 系 preprint 2026-02 LLM agent 协作生成受控词表 item 表示

工业界非 arXiv 落地

系统或文章 公司 来源·年份 SID 状态 要点
Home Feed 多目标优化中的 Semantic ID 多样性信号 Pinterest 工程博客 2026-04 已上线,2025 Q4 coarse→fine 离散化得分层 SID,作排序多样性信号,非生成式检索
Towards Generalizable Large-Scale Generative Recommenders Netflix Tech Blog 2025-03 讨论,未上线 multi-modal semantic tower 把 embedding 离散为 semantic token,未来方向
The generative recommender behind Shopify’s commerce engine Shopify Eng 博客 2026 探索中 已上线 item-ID 空间生成式召回,明确探索转向 SID token 空间
LLMs to build content embeddings DoorDash Eng 博客 2025 下一步 profile embedding 离散成 semantic ID 是明确的下一步
GENIAC 二次流通搜索与推荐基座 Mercari R4D 博客 + METI 2026-06 研发中 40 亿 listing 训练,query 上下文生成 SID 再匹配,日本国家项目

七、技术演进脉络

纵观 2017 至 2026,SID 主题沿以下几条线索演进。

7.1 量化方法:从单层到结构化、自适应、可微

单层 VQ-VAE 给出离散表示基座,但码本利用率与冲突难控。RQ-VAE 引入逐级残差量化得到 coarse→fine 有序码,成为生成式工作的默认 tokenizer。工业侧改用 RQ-Kmeans 与 balanced K-means 提高码本利用率,缓解沙漏现象。乘积量化 PQ 与 OPQ 给出无序码集合以支持并行生成。近期方向有三条:lookup-free 的 FSQ 抗坍缩;对比量化用邻域目标替代纯重建;软、可微、变长量化让 tokenizer 端到端可学并按信息量调整码长。

7.2 生成解码范式:自回归到并行与扩散

TIGER 确立逐位自回归生成有序 SID。自回归有串行延迟与顺序偏置两个问题。一条路线改用无序集合或多 token 并行预测,如 SETRec、RPG;另一条路线用掩码离散扩散按任意序并行生成,如 DiffGRM、LLaDA-Rec、MDGR、MaskGR,并出现连续 token 扩散的 ContRec 以规避 argmin 不可导。这是 2025 下半年至 2026 最活跃的方向之一。

7.3 协同信号融合:从纯内容到解耦与统一

纯内容 SID 缺少协同信息。LC-Rec 用对齐微调把协同语义注入码;LETTER 用语义、协同、多样性三正则;DiscRec、DECOR 在 embedding 层解耦语义与协同并加门控;UNGER 把两者统一为一套码以解决语义支配。趋势是从"先内容后对齐"走向"语义与协同联合建模"。

7.4 多模态与端到端可学习

多模态从单一文本扩展到文本、视觉、音频联合量化,如 MMGRec、MME-SID、PSRQ、FusID,并出现把协同特征当作额外模态的 MSCGRec、CARD。tokenizer 训练从两阶段分离走向端到端联合,如 ETEGRec,再到可微软标识符 DIGER、UniGRec 与双层优化 BLOGER,让推荐目标的梯度直接塑造 SID。

7.5 SID 质量、长度与表达力

冲突与坍缩诊断从 Hourglass 现象的揭示,发展到 Purely Semantic Indexing、HiD-VAE 的唯一性保证,再到 QuaSID、AdaSID 的冲突分级处理与 DRQ 的解耦残差量化。长度方向从固定短码扩展到长 SID 并行、变长码、token 剪枝与蒸馏,并有 Expressiveness Limits 从理论上指出树状自回归解码会人为拉近树相邻 item 的分数。

7.6 推理、强化学习与工业化

后训练从约束解码发展到 in-text reasoning 与 CoT,如 OneRec-Think、GREAM,再到以排名为单元的 RL,如 Rank-GRPO、MiniOneRec,以及潜空间推理 LASAR。工业化由 OneRec 端到端替代级联起步,扩散到各厂广告生产系统 GR4AD、GPR、UniVA、NEZHA、CQ-SID,并有 Understanding GR with Semantic IDs 从 44M 到 14B 实证 scaling 瓶颈。

7.7 判别式分线

判别式自 Better Generalization with Semantic IDs 起,沿"SID 作排序特征"展开:Meta 关注 embedding 稳定性与超长序列存储,如 SIDE;阿里、快手用多模态 SID 解冷启动,如 SaviorRec、QARM、GateSID;并扩展到用户侧 tokenization,如 U2QT、DSIRM。判别式与生成式在 LIGER、DIG、Snapchat SID 等工作中开始统一。

横向对比

代表工作 关键设计 量化方法 用法 代表结果
TIGER 层级 SID + T5 自回归 RQ-VAE 生成式 序列推荐 SOTA,具冷启动泛化
Better Generalization SID 替哈希 ID 作特征 RQ-VAE 判别式 长尾泛化提升
OneRec 端到端替代级联 + RL RQ-Kmeans 生成式工业 watch-time +1.6%,承接约 25% 流量
RPG 多 token 并行生成长 SID OPQ 无序码 生成式 长 SID 并行解码
DiffGRM 掩码离散扩散 并行语义编码 生成式 任意序并行替代自回归
QARM 多模态 SID 与传统 ID 联合 RQ-Kmeans 判别式工业 多模态冷启动增强
RecJPQ PQ 子嵌入共享 PQ 判别式 内存降 47 倍

本文为公开论文与已整理调研材料的客观二次组织与技术综述,数字、机构、venue 与结论以各论文原文为准。多篇为 2025 至 2026 的较新预印本,更新版本中细节、命名与 venue 可能微调;带 ⚠️ 处尤需在引用前核对。