推荐系统 Semantic ID 论文精读清单

截至 2026-06。整理范围：以 2023–2026 年推荐系统中的 Semantic ID（语义 ID，下称 SID） 为主，奠基方法与信息检索源头单独追溯。按"生成式 / 判别式"两条主线，并在每条主线内按设计思路分组，共收录约 215 项。

本文为已整理调研材料的二次组织与综述：arXiv 编号、机构、venue、关键数字均照搬原始考据，论文未明确给出的标注"未提及"，不作推断。带 ⚠️ 的为仍待确认或易混淆之处，已在正文与第八节标注依据。2601.*–2606.* 为 2026 年最新预印本。

工业级生成式系统中的快手 OneRec 全系另有独立精读，见 OneRec 系列论文精读清单，本文只作收录与定位，不重复展开。

概览

论文数量：约 215 项。生成式约 150 篇，含工业系统约 33；判别式约 28 篇；信息检索源头约 28 篇；综述 / 方法 / 数据集 8 篇；工业界非 arXiv 落地 5 项。
时间跨度：奠基方法上溯至 2017 年的 VQ-VAE 与 2021–2022 年的信息检索源头，主体集中在 2023-05 的 TIGER 至 2026-06 的最新预印本。
核心范式：把每个 item 用一段离散的、语义结构化的编码表示，取代随机哈希得到的原子 item ID。
- 生成式：用自回归、并行或扩散解码直接生成目标 item 的 SID token，把推荐重构为序列生成。
- 判别式：把 SID 当作特征、embedding 或检索单元，喂给召回、粗排、精排，不做生成。
- 同时具备两种用法的工作如 LIGER、DIG、Snapchat SID 单列；生成式但不使用 SID 的工作如 HSTU、URM、PinRec 列入对照。
主要出品方：学术侧以 RUC、UCSD、USTC、NUS、Google、Meta、Snap 为主；工业侧快手最为多产，阿里系、腾讯、美团、字节、京东、Pinterest、Spotify 等均有规模化落地。

背景：什么是 Semantic ID 与量化方法骨架

传统推荐用一个随机哈希得到的整数 ID 表示 item，再为每个 ID 学一个 embedding。该方案有两个结构性问题：一是长尾与冷启动 item 的 embedding 训练不充分；二是 ID 之间没有语义关系，相似 item 不共享任何参数。

Semantic ID 的思路是：先用内容或行为信号得到 item 的连续表示 $\mathbf{z}\in\mathbb{R}^{d}$ ，再用向量量化把它压成一小段离散码 $(c_1,\dots,c_L)$ 。语义相近的 item 会共享前缀或码字，从而带来可泛化、可生成、可压缩三个性质。量化方法决定了 SID 的结构，是全部工作的分类基础。

量化方法族

量化族	代表方法	机制	典型使用者
单层 VQ	VQ-VAE，2017	最近邻查码本 + 直通估计 + commitment loss	TokenRec / ColaRec / SEATER 基座
逐级残差量化	RQ-VAE，2022	逐级量化残差，coarse→fine 有序元组	TIGER / LC-Rec / LETTER
残差 K-means	RQ-Kmeans	每级对残差做 K-means，码本利用率高	OneRec / QARM，快手
乘积量化	PQ / OPQ	切分子向量分别量化，得无序码集合	VQ-Rec / RPG / RecJPQ
层级聚类与树	balanced k-ary tree	约束聚类成平衡树	SEATER / DSI / NCI
Lookup-free 与 FSQ	FSQ / LFQ / RQ-FSQ	每维取整到固定值，无码本，抗坍缩	QARM V2 / Quantizing Intent
对比量化	contrastive quantization	用对比目标替代纯重建目标	CoST / SimCIT
软、可微、变长	Gumbel / capsule routing	可微索引，或按置信度变长	DIGER / CapsID / UniGRec

五个横切维度可用来定位任何一篇工作：①是否融合协同信号 ②单模态或多模态 ③有序短码、无序长码、树或集合 ④是否处理冲突与坍缩 ⑤tokenizer 是否端到端可学习。

四个核心量化公式

单层 VQ-VAE。编码器输出 $\mathbf{z}_e$ ，在大小为 $K$ 的码本 $\{\mathbf{e}_j\}_{j=1}^{K}$ 中取最近邻：

\mathbf{z}_q=\mathbf{e}_{k},\qquad k=\arg\min_{j\in\{1,\dots,K\}}\lVert \mathbf{z}_e-\mathbf{e}_j\rVert_2

\mathcal{L}_{\text{VQ}}=\underbrace{\lVert \mathbf{x}-\hat{\mathbf{x}}\rVert_2^2}_{\text{重建}}+\underbrace{\lVert \operatorname{sg}[\mathbf{z}_e]-\mathbf{e}_k\rVert_2^2}_{\text{码本}}+\beta\underbrace{\lVert \mathbf{z}_e-\operatorname{sg}[\mathbf{e}_k]\rVert_2^2}_{\text{commitment}}

其中 $\mathbf{x}$ 为输入、 $\hat{\mathbf{x}}$ 为解码重建， $\mathbf{z}_e$ 为编码器输出的连续隐向量， $\mathbf{e}_j$ 为第 $j$ 个码字、 $\mathbf{z}_q$ 为量化后隐向量， $\operatorname{sg}[\cdot]$ 为停止梯度算子， $\beta$ 为 commitment 权重。 $\arg\min$ 不可导，反向传播用直通估计把梯度直接拷给 $\mathbf{z}_e$ 。

逐级残差量化 RQ-VAE。把同一向量在 $L$ 个码本上逐级量化其残差，得到有序码元组：

\mathbf{r}_0=\mathbf{z}_e,\quad c_l=\arg\min_{k}\lVert \mathbf{r}_l-\mathbf{e}^{(l)}_k\rVert_2,\quad \mathbf{r}_{l+1}=\mathbf{r}_l-\mathbf{e}^{(l)}_{c_l},\quad l=0,\dots,L-1

其中 $\mathbf{r}_l$ 为第 $l$ 级残差， $\mathbf{e}^{(l)}_k$ 为第 $l$ 级码本的第 $k$ 个码字， $L$ 为码长即层数， $c_l$ 为该级选中的码字下标。SID 为有序元组 $(c_0,\dots,c_{L-1})$ ，重建为 $\hat{\mathbf{z}}=\sum_{l}\mathbf{e}^{(l)}_{c_l}$ 。靠前的码粗、靠后的码细，因此天然适合前缀树解码。这是 TIGER 与多数生成式工作的默认 tokenizer。

残差 K-means。残差递归与 RQ-VAE 相同，区别在于每级码本不是联合训练的可学习参数，而是直接在该级残差集合上做 K-means 得到的聚类中心，不需要解码器。OneRec 进一步用 balanced K-means 强制每簇容量相等，缓解 RQ-VAE 常见的码字分布不均，即"沙漏"现象。

乘积量化 PQ 与 OPQ。把向量切成 $M$ 段子向量，各段在自己的子码本中独立量化：

\mathbf{z}=[\mathbf{z}^{1};\dots;\mathbf{z}^{M}],\qquad c_m=\arg\min_{k}\lVert \mathbf{z}^{m}-\mathbf{e}^{(m)}_k\rVert_2,\quad m=1,\dots,M

其中 $\mathbf{z}^{m}$ 为第 $m$ 段子向量， $\mathbf{e}^{(m)}_k$ 为第 $m$ 段子码本的第 $k$ 个码字。SID 为无序码集合 $\{c_1,\dots,c_M\}$ ，适合并行生成。OPQ 在切分前先乘一个正交旋转矩阵 $\mathbf{R}$ ，使各段分布更均匀以降低量化失真。

一、奠基与里程碑时间线

下表是贯穿全主题的关键节点，完整收录见第三至第六节的分组清单。

论文	时间	arXiv	一句话核心
VQ-VAE	2017	1711.00937	离散表示学习的基座，单层向量量化 + 直通估计
GENRE	2020-10	2010.00904	最早的自回归 ID 检索，约束 beam 生成实体名
DSI	2022-02	2202.06991	生成式检索源头，T5 把语料编进参数后生成层级 docid
RQ-VAE	2022-03	2203.01941	逐级残差量化，coarse→fine 有序码，多数生成式工作的 tokenizer
P5	2022-03	2203.13366	text-to-text 统一推荐任务的范式起点
VQ-Rec	2022-10	2210.12316	text→code→repr，OPQ 编码，跨域可迁移
TIGER	2023-05	2305.05065	生成式奠基：RQ-VAE 层级 SID + T5 自回归生成
Better Generalization with Semantic IDs	2023-06	2306.08121	判别式奠基：SID 替哈希 ID 作排序特征，提升长尾泛化
LC-Rec	2023-11	2311.09049	对齐微调把协同语义注入 SID，无冲突索引
HSTU	2024-02	2402.17152	生成式推荐 scaling law 奠基，行为 ID 而非 SID，对照工作
LETTER	2024-05	2405.07314	RQ-VAE 加语义、协同、多样性三正则
QARM	2024-11	2411.11739	快手多模态内容量化成可学习 SID 与传统 ID 联合优化
OneRec	2025-02	2502.18965	端到端生成式统一召回与排序并超越级联
FORGE	2025-09	2509.20904	阿里工业级生成式推荐 + SID 基准，140 亿交互
PLUM	2510	2510.07784	Google/YouTube 适配预训练 LM 做工业 GR，十亿级部署
GRID / Practitioner’s Handbook	2507	2507.22224	Snap 出品的量化方法实证对比 + 开源框架

二、奠基论文精读

本主题真正的奠基工作只有少数几篇。这里给出生成式与判别式各自的源头，以及信息检索侧的范式起点，便于建立框架。

1. TIGER — 生成式推荐的奠基

arXiv：2305.05065｜Recommender Systems with Generative Retrieval｜Google DeepMind｜NeurIPS 2023

动机：传统检索是"item embedding + 近似最近邻"，需要为每个 item 维护可学习 embedding，长尾与新 item 学不充分；且检索质量受 ANN 索引限制。TIGER 把检索改写为直接生成目标 item 的标识符。

方法：分两步。

Tokenizer：取 item 的内容文本，用预训练文本编码器得到语义向量，再用 RQ-VAE 量化成长度 $L=3$ 的有序码元组，即 SID。语义相近的 item 共享前缀码。对落入同一码元组的 item，追加一个去重后缀位以保证唯一。
生成式检索：用 T5 风格的 seq2seq 模型。输入是用户历史 item 的 SID token 串联，输出是下一个 item 的 SID，逐位自回归生成：

p(c_1,\dots,c_L\mid \mathcal{H}_u)=\prod_{l=1}^{L} p\big(c_l\mid c_{<l},\,\mathcal{H}_u\big)

其中 $\mathcal{H}_u$ 为用户历史的 SID token 序列， $c_l$ 为目标 item 第 $l$ 位码。解码用前缀约束的 beam search，保证生成的码元组对应真实 item。

结果：在 Amazon Beauty / Sports / Toys 上全面超越当时的序列推荐基线；因相似 item 共享前缀，对冷启动 item 具备一定泛化与检索能力。

局限：SID 冲突需要去重后缀，破坏纯语义结构；tokenizer 与推荐器分两阶段训练，量化目标与推荐目标不一致。这两点正是后续 G3、G5、G6 多篇工作的改进出发点。

2. Better Generalization with Semantic IDs — 判别式的奠基

arXiv：2306.08121｜Google｜RecSys 2024

动机：工业排序模型普遍用随机哈希得到的 item ID embedding。哈希碰撞是任意的，长尾与新 item 的 embedding 训练不足，泛化差。

方法：用 RQ-VAE 把 item 内容向量量化成 SID，再以 SID 派生的 embedding 替代或补充原来的哈希 ID embedding 作为排序特征。论文系统比较了把 SID 作为特征的几种表示方式，例如逐级码 embedding 拼接，以及 SID 的 N-gram 组合。语义相近的 item 因共享码而共享参数，碰撞从"任意"变为"语义有意义"。

结果：在排序任务上改善泛化，长尾与冷启动 item 的提升尤为明显。该工作确立了"SID 作判别式特征"这条主线，后续 Meta、快手、阿里多篇排序侧工作沿此展开，见第四节 D1。

3. DSI — 信息检索侧的范式起点

arXiv：2202.06991｜Differentiable Search Index｜Google｜NeurIPS 2022

"SID + 生成式检索"的范式实际起源于信息检索。DSI 用 T5 把整个语料编码进模型参数，给定 query 直接自回归生成目标文档的 docid：

p(\text{docid}\mid q)=\prod_{i} p\big(d_i\mid d_{<i},\,q\big)

其中 $q$ 为 query， $d_i$ 为 docid 第 $i$ 位。docid 用层级 K-means 构造，使语义相近的文档共享前缀。这一"层级语义标识符 + 前缀约束自回归生成"的结构被 TIGER 直接迁移到推荐。完整的信息检索源头清单见第五节。

三、生成式 SID 全景

按设计思路分为 19 组，覆盖奠基、tokenizer 变体、协同对齐、多模态、端到端、新解码范式、长度与表达力、漂移更新、推理与强化学习、多行为、跨域、图与 trie、偏置鲁棒、冷启动、推理效率、垂类、搜推联合、工业系统、非 SID 对照。

3.1 生成式奠基范式

论文	arXiv	机构	会议·年份	SID 构造	核心设计思路
P5	2203.13366	Rutgers	RecSys 2022	数字 / 文本 ID	text-to-text 统一推荐任务的范式起点
VQ-Rec	2210.12316	RUC + UCSD	WWW 2023	OPQ	text→code→repr，跨域可迁移
TIGER	2305.05065	Google DeepMind	NeurIPS 2023	RQ-VAE	奠基工作，RQ-VAE 层级 SID + T5 自回归生成
How to Index Item IDs	2305.06569	Rutgers	SIGIR-AP 2023	RID / IID / SID / CID / SemID	系统对比多种 item 索引方式

3.2 Item Tokenizer 设计变体

论文	arXiv	机构	会议·年份	SID 构造	核心设计思路
SEATER	2309.13375	RUC	SIGIR-AP 2024	平衡 k 叉树	树结构 identifier + 对比学习对齐层级
LMIndexer	2310.07815	UIUC + Amazon	ICML 2024	LM 端到端生成 SID	LM 自监督直接生成语义 ID
IDGenRec	2403.19021	Rutgers	SIGIR 2024	文本 ID	自然语言 token 组成语义 ID，zero-shot 跨平台
GPTRec	2306.11114	U. Glasgow	Gen-IR@SIGIR 2023	SVD 量化 sub-id	GPT-2 自回归逐 item 生成 sub-item token
TransRec	2310.06491	NUS + USTC	KDD 2024	多面 identifier，ID + title + attr	生成多面 ID 再 grounding 到真实 item
BIGRec	2308.08434	USTC	TORS 2025	文本 item token	两步 grounding，先生成 item token 再接地
TokenRec	2406.10450	PolyU	TKDE 2025	Masked VQ	掩码 VQ，免 beam search
UTGRec	2504.04405	RUC 高瓴 + 腾讯微信	preprint 2025-04	MLLM + 树码本	通用 tokenizer，跨域可迁移
MTGRec ⚠️	2504.04400	RUC 高瓴 + 华为	SIGIR 2025 ⚠️	多 identifier，RQ-VAE	checkpoint 多 identifier 数据增强
SIIT	2412.17171	UT Austin + Snap	preprint 2024-12	自改进 tokenization	训练中按 LLM 理解调整 token
ActionPiece	2502.13581	Google DeepMind	ICML 2025	上下文感知，类 BPE	同一 action 按上下文分配不同 token
Pctx	2510.21276	UCSD	preprint 2025-10	个性化、上下文 SID	同一 item 按用户意图分不同 SID，NDCG +11.4%
GRAM	2506.01673	高丽大学	ACL 2025	语义到词法翻译编码	把 item 关系译进 LLM 词表 + 多粒度后融合
ReSID	2602.02338	中南大学 + Shopee + NTU	preprint 2026-02	FAMAE + GAOQ，非 LLM	推荐原生 tokenizer，tokenization 成本降 122 倍
CoFiRec	2511.22707	UIUC + Meta + UCSD	preprint 2025-11	多层级独立 tokenize	粗到细自回归，意图渐进细化
ELMRec ⚠️	2409.19979	NTU	EMNLP 2024	全词 embedding，无码本	增强高阶交互感知，边界工作，非码本 SID

3.3 协同信号与语义对齐码本

论文	arXiv	机构	会议·年份	SID 构造	核心设计思路
LC-Rec	2311.09049	RUC + 腾讯	ICDE 2024	RQ-VAE + 均匀映射	对齐微调注入协同语义，无冲突索引
CoST	2404.14774	华为诺亚	RecSys 2024	对比量化	量化时引入 item 邻域关系
ColaRec	2403.18480	山大 + 腾讯	CIKM 2024	CF 模型 GID	对比损失对齐内容空间与协同空间
LETTER	2405.07314	USTC + NUS	CIKM 2024	RQ-VAE + 三正则	语义、协同、多样性，缓解码分配偏置
Mixture-of-Codes	2410.09560	清华 + 腾讯	preprint 2024-10	多码本	多码本扩大语义表示规模
Semantic Convergence	2412.13771	美团	AAAI 2025	行为语义 tokenization	两阶段对齐缩小稀疏协同与 LLM 稠密 token 的差距
UNGER	2502.06269	华科 + 华为	TOIS 2025	统一 Unicode	语义与协同统一为一套码，解决语义支配问题
CCFRec	2503.12183	RUC	KDD 2025	多视角文本 VQ 语义码	语义码缩小文本与协同表示的差距
DiscRec	2506.15576	华科 + USTC	preprint 2025-06	双分支解耦	embedding 层解耦语义与协同 + 门控
DECOR	2509.10468	UIUC	SIGIR 2026	解耦上下文 token	保留 LM 知识同时让 token 适应交互上下文
Align³GR	2511.11255	快手	AAAI 2026 Oral	双 tokenization	token、行为、偏好三级对齐 + 渐进 DPO
TS-Rec	2602.22632	USTC	preprint 2026-02	token 级语义 SID 初始化	对齐共享 item-cluster 语义

3.4 多模态 SID 生成式

论文	arXiv	机构	会议·年份	SID 构造	核心设计思路
MMGRec	2404.16555	山大 + 蒙纳士	preprint 2024-04	Graph RQ-VAE	多模态与协同融合量化成 Rec-ID
EAGER	2406.14017	浙大 + 阿里	KDD 2024	双流，行为 + 语义	行为流与语义流并行 + 全局对比
MQL4GRec	2504.05314	中山大学 + 鹏城实验室	ICLR 2025	多模态量化"语言"	各模态 VQ 成共享词表，跨域迁移
EAGER-LLM	2502.14735	浙大 + 华为	WWW 2025	行为与语义注入	双流迁到 decoder-only LLM
MME-SID	2509.02017	港城大 + 腾讯	CIKM 2025	MM-RQ-VAE	多模态 embedding + SID，缓解 embedding collapse
MACRec	2511.15122	北航 + 美团	AAAI 2026 Oral	多面跨模态量化	跨模态量化降冲突 + 多面对齐
TriAlignGR	2605.05249	东南大学 + 清华	preprint 2026-05	VLM 文本 + 多模态 SID	8 任务联合对齐，缓解 SID 内容退化与语义不透明
CEMG	2512.21543	CMU + UCLA 等	preprint 2025-12	RQ-VAE + 协同引导	协同引导多模态融合得 RQ-VAE 码再交 LLM 生成
MSCGRec	2602.03713	Meta AI	preprint 2026-02	DINO 自监督图像量化	把协同特征当额外模态融合
CARD	2604.26427	电子科大	preprint 2026-04	非均匀量化	平衡偏斜语义分布，统一文本、视觉、协同
Text-as-Vision×SID	2601.14697	昆士兰大学 + 港城大	preprint 2026-01	多模态 SID	实证"文本当视觉"对 SID 生成式推荐的影响

3.5 端到端与可微 SID 学习

论文	arXiv	机构	会议·年份	SID 构造	核心设计思路
ETEGRec	2409.05546	RUC	SIGIR 2025	RQ-VAE 端到端	tokenizer 与推荐器端到端联合 + 双对齐
BLOGER	2510.21242	USTC	SIGIR 2026	双层优化	元学习 + 梯度手术耦合 tokenizer 与推荐器
UniGRec	2601.17438	USTC + eBay	preprint 2026-01	软标识符，可微	连续分配概率替代硬码字 + 均匀正则抗坍缩
DIGER	2601.19711	格拉斯哥 + 莱顿	SIGIR 2026	Gumbel 可微索引	推荐梯度直接塑造 SID
UniSID	2602.10445	腾讯 + 武大	preprint 2026-02	端到端 SID，广告	联合优化 embedding 与 SID，Hit Rate +4.62%
R3-VAE	2604.11440	字节，今日头条	preprint 2026-04	参考向量引导 RQ-VAE	语义锚点稳定 SID 训练，Recall@10 +14.5%
GenRetr-SPC	DOI 3792862	阿里巴巴	WWW 2026 short	EMA 码本 + restart	联合学 embedding 与码本 + 同商品簇约束

3.6 新解码范式：并行、无序、集合、扩散

论文	arXiv	机构	会议·年份	SID 构造	核心设计思路
SC-Rec ⚠️	2408.08686	韩国 POSTECH 系	preprint 2024-08	双异构索引树	协同树与语义树做 self-consistency 重排，最新版改名 MVIGER
STORE ⚠️	2409.07276	PolyU + 华为	preprint 2024-09	单 LLM 统一	单一 LLM 同时做 tokenization 与推荐，最新版改名 LAMIA
SETRec	2502.10833	NUS	SIGIR 2025	无序集合 identifier	order-agnostic token 集合，并行生成
RPG	2506.05781	UCSD + Meta	KDD 2025	OPQ 无序长 SID，长度 ≤ 64	多 token 预测并行生成长 SID
HiD-VAE	2508.04618	吉大 + 港城大	preprint 2025-08	层级监督量化	多级标签监督 + uniqueness loss
Purely Semantic Indexing	2509.16446	UCSD	preprint 2025-09	ECM / RRS	不加随机后缀即保证 SID 唯一
ContRec	2504.12007	PolyU	WWW 2026	σ-VAE 连续 token	连续 token 扩散，规避 argmin 不可导
DiffGRM	2510.21805	快手	WWW 2026	并行语义编码	掩码离散扩散替代自回归，任意序并行
LLaDA-Rec	2511.06254	RUC	preprint 2025-11	离散扩散并行	扩散 + 双向注意力并行生成 SID
MaskGR	2511.23021	UT Austin + Snap	preprint 2025-11	标准 SID	掩码扩散建模用户 SID 序列，提升粗粒度召回
MDGR	2601.19501	阿里国际 + 武大	preprint 2026-01	重设计 codebook	从 codebook、训练、推理三方面重塑扩散 GR
Time-Aware Diffusion	2606.01670	中南大学 + RUC + PolyU	preprint 2026-06	SID 上时间感知扩散	偏好解耦为周期性与近期触发
CapsID ⚠️	2605.05096	机构未找到	preprint 2026-05	capsule 软路由变长	按置信度软路由变长 SID，缓解 tokenizer 瓶颈

3.7 SID 长度、表达力与剪枝

论文	arXiv	机构	会议·年份	关注点	核心设计思路
RASTP	2511.16943	浙大系	preprint 2025-11	token 剪枝	按 magnitude × attention 剪低信息 token，训练 −26.7%
STAMP	2604.05329	浙大 + 阿里	preprint 2026-04	语义剪枝 + 多步预测	前向动态裁剪冗余 token + 多 token 目标，缓解语义稀释
ACERec	2602.13573	南科大 + 南大 + 西交	preprint 2026-02	长 SID 蒸馏	Attentive Token Merger 蒸馏长 SID，NDCG +14.4%
Variable-Length SID	2602.16375	HSE University	preprint 2026-02	变长码	Discrete-VAE，高频 item 短码、稀有 item 长码
Expressiveness Limits	2605.06331	UCSD	preprint 2026-05	理论	树状自回归解码使树相邻 item 的分数被人为拉近
VarLenRec	2605.17779	华师大	preprint 2026-05	变长 tokenization	按流行度自适应 SID 长度
Asymmetric GR，MHQ	2605.14512	清华 + 腾讯	preprint 2026-05	多面层级量化	输入连续投影、输出多级离散 SID 解耦，约 16% 提升

3.8 SID 漂移、陈旧与持续更新

论文	arXiv	机构	会议·年份	关注点	核心设计思路
Mitigating Collaborative SID Staleness	2604.13273	AI VK + ITMO	SIGIR 2026	SID 陈旧	轻量、模型无关的 SID 重对齐，算力约降 8–9 倍
DACT	2603.29705	复旦 + MSRA	preprint 2026-03	漂移感知持续 tokenization	漂移与平稳 item 差异化优化 + 层级码重分配
GTI	2604.02324	UW-Madison + LinkedIn 等	preprint 2026-04	新 token 词表初始化	新 item 与新 SID token 在预训练空间语言学接地

3.9 推理与强化学习后训练

论文	arXiv	机构	会议·年份	SID 方案	核心设计思路
SIDReasoner	2603.23183	NUS	preprint 2026-03	RQ-VAE 式 SID	强化 SID token 与语言理解的关联，推理不依赖大量数据
LASAR	2605.10207	北航 + 百度	preprint 2026-05	潜空间推理	隐状态多步潜推理，grounding SID 防漂移
MiniOneRec	2510.24431	USTC + NUS	preprint 2025-10	RQ-VAE SID	首个全开源 GR 框架，SFT + 约束解码 + RL，0.5B–7B scaling
GREAM	2510.20815	浙大 + 上交	preprint 2025-10	协同与语义对齐离散索引	CoT 推理课程 + SRPO，支持直接与推理双模
Rank-GRPO / ConvRec-R1	2510.20150	Netflix + UVA + Cornell	ICLR 2026	SID / item identifier	以排名位次为 RL 单元，对话推荐
VRec	2603.07725	NUS + Meta	preprint 2026-03	SID	reason-verify-recommend，mixture-of-verifiers
UGR	2602.11719	USTC	preprint 2026-02	分层 SID	不确定性加权奖励 + 置信对齐，亦属校准

3.10 多行为生成式

论文	arXiv	机构	会议·年份	SID 构造	核心设计思路
MBGen	2405.16871	UCSD	CIKM 2024	平衡 SID + 平衡 Chunked ID	两步自回归先行为后 item + 位置路由专家
GAMER	2511.03155	清华 + 快手	preprint 2025-11	预训练 side-info SID	decoder-only 跨层交互建模分层行为，发布短视频多行为数据集
GRACE	2507.14758	Walmart	RecSys 2025	RQ-VAE + CoT 属性 token	Journey-aware 稀疏注意力，可解释多行为生成

3.11 跨域、多域统一与可迁移

论文	arXiv	机构	会议·年份	SID 构造	核心设计思路
GenCDR	2511.08006	西交利物浦 + 利物浦	AAAI 2026	域自适应解耦 SID	通用 encoder + 域 adapter 动态路由 + 域感知前缀树
GMC	2507.12871	USTC + NUS + 腾讯	preprint 2025-07	RQ-VAE 域共享 SID	多目标跨域统一 seq2seq + 域对比
UniTok	2511.12922	延世大学	AAAI 2026	MoE tokenizer	一次 tokenize 跨域复用，互信息校准

跨域可迁移设计另见 UTGRec、VQ-Rec、MQL4GRec。

3.12 图与 trie 结构及解码约束

论文	arXiv	机构	会议·年份	SID 构造	核心设计思路
CONGRATS	2510.10127	北大 + 快手	KDD 2026	SID + 图结构解码	图结构多路径探索，缓解似然陷阱
TrieRec	2602.21677	浙大 + 蚂蚁集团	preprint 2026-02	分层 SID 诱导 trie	trie 拓扑注入注意力位置编码
SimGR	2602.07847	中南大学等	preprint 2026-02	SID	训推共享管线，消除 token 级与 item 级分布偏差
Vectorizing the Trie ⚠️	2602.22647	机构未找到	preprint 2026-02	SID + trie	把 trie 约束解码向量化以适配加速器

3.13 偏置、公平、长尾与鲁棒

论文	arXiv	机构	会议·年份	SID 构造	核心设计思路
CRAB ⚠️	2604.05113	机构未找到	preprint 2026-04	离散语义 token	codebook 再平衡缓解流行度偏置
GenPlugin	2507.03568	厦门大学	preprint 2025-07	双编码器共享解码器	概率替换 token 缓解曝光偏置 + 检索增强长尾
ADC-SID	2510.25622	阿里国际 + 武大	preprint 2025-10	自适应行为与内容对齐	长尾 item 协同噪声去噪

3.14 生成式冷启动与归纳

论文	arXiv	机构	会议·年份	SID 构造	核心设计思路
SpecGR	2410.02939	UCSD	AAAI 2026 Oral	同 tokenizer 给新 item 编 SID	drafter 提含新 item 的候选，GR 当 verifier，归纳推荐未见 item
GenRecEdit	2603.14259	RUC + 对外经贸大学	preprint 2026-03	SID	首个 GR 模型编辑框架，缓解冷启动塌缩

3.15 推理效率、蒸馏与 serving

论文	arXiv	机构	会议·年份	关注点	核心设计思路
SID-MLP	2605.12617	UCSD + Snap	preprint 2026-05	蒸馏	把重型 decoder 蒸馏成位置专属 MLP 头，8.74 倍加速

工业侧推理加速见 3.18 的 NEZHA；解码约束见 3.12。

3.16 垂类：POI、音乐、新闻、地图

论文	arXiv	机构	会议·年份	SID 构造	核心设计思路
GNPR-SID	2506.01375	电子科大	KDD 2025	RQ-VAE POI-SID + diversity	首个 next-POI 的 LLM 生成式推荐，准确率 +16%
KGTB	2509.12350	武汉科技大学 + 武大	preprint 2025-09	知识图谱 tokenization	KG 节点量化成 structural ID + 多行为指令微调，POI
GeoGR	2602.10411	高德 AMAP	preprint 2026-02	geo-aware SID	地理约束共访 POI 对 + 对比 + 迭代精炼
GenPOI	2605.03397	北京交大 + 腾讯地图	preprint 2026-05	Geo-Semantic POI token	空间感知 POI 生成 + proximity 约束解码
Music-SID，SiriusXM	2507.18800	SiriusXM / Pandora	preprint 2025-07	SID	千万级曲库 next-song 用 SID
FusID	2601.08764	UCSD	preprint 2026-01	多模态融合 SID + PQ	音频、标签、歌词联合编码，零冲突，playlist 续接
PSRQ	2508.20359	网易云音乐 + 杭电	CIKM 2025	渐进语义残差量化	音乐多模态联合兴趣建模
Intent-Driven News	2605.07613	腾讯 PCG + 中山大学	ACL 2026 Industry Oral	LLM 意图到层级 SID 前缀	Generate-then-Match 保证对话新闻推荐 grounded

3.17 搜索与推荐联合及生成式搜索

论文	arXiv	机构	会议·年份	SID 构造	核心设计思路
Joint Search & Rec	2508.10478	Spotify	RecSys 2025 LBR	统一与任务专属 SID 对比	联合微调 bi-encoder 得统一 SID 空间最优
GenSAR	2504.05730	RUC + 快手	RecSys 2025	语义与协同双标识符	生成式统一搜索与推荐，平衡两类信息
C2T-ID	2510.19221	中科院计算所 + 阿里	SIGIR-AP 2025	语义码本到文本 docid	高频元数据关键词替换数字标签
Hi-Gen	2404.15675	阿里	ICDM 2024	层级编码解码 docid	DSI 式层级生成式检索用于电商搜索召回

3.18 工业级大规模生成式系统

快手 OneRec 全系。下表只作收录与定位，完整精读见 OneRec 系列论文精读清单。

系统	arXiv	时间	SID 方案	核心设计思路
OneRec	2502.18965	2025-02	RQ-Kmeans 多模态 SID	端到端统一召回与排序并超越级联，承接约 25% 流量
OneRec Tech Report	2506.13695	2025-06	同上	MFU 优化 + 训练与部署细节
OneRec-V2	2508.20900	2025-08	同上	Lazy Decoder-Only，算力降 94%，扩到 8B
OneRec-Think	2510.11639	2025-10	RQ-VAE itemic token + 推理	生成 item 前做 in-text reasoning
OneReason	2606.06260	2026-06	itemic token grounding	OneRec 系加推理，三级 cognition CoT
DualGR	2511.12518	2025-11	SID + S2D	长短期兴趣双分支 + Search-based SID Decoding
GLASS	2602.05663	2026-02	SID-Tier	长序列映射成统一兴趣向量增强首位 SID token + 语义硬检索
GR4AD	2602.22732	2026-02	UA-SID 统一广告 SID	广告生产级 GR，LazyAR + 动态 Beam，延迟 < 100ms，广告收入 +4.2%
OneSug	2506.06913	2025-06	query 文本 token，非 item SID	端到端生成式电商 query suggestion
OneSearch	2509.03236	2025-09	KHQE，RQ-Kmeans 3 级 + OPQ 2 段	端到端统一替代召回、预排、精排，订单 +3.22%

其他厂商。

系统	arXiv	机构	会议·年份	SID 方案	核心设计思路
HSTU	2402.17152	Meta	ICML 2024	非 SID，行为 ID	生成式推荐 scaling law 奠基，1.5T 参数
LIGER	2411.18814	Meta	preprint 2024-11	RQ-VAE SID + dense	生成式与稠密检索融合补冷启动，边界工作
COBRA	2503.02453	百度	preprint 2025-03	稀疏 SID + 稠密级联	先生成粗 SID 再生成稠密向量，转化 +3.6%
PLUM	2510.07784	Google / YouTube	WWW 2026	SID tokenization	适配预训练 LM 做工业 GR，YouTube 十亿级部署
UniPinRec	2606.00422	Pinterest	arXiv 2026-06	共享 transformer，不显式 SID	统一检索与排序消除参数冗余 + 跨阶段 KV 共享
FORGE	2509.20904	阿里 / 淘宝	preprint 2025-09	RQ-VAE 3×8192 + 多模态 + 协同	工业 GR 与 SID 基准，140 亿交互，首页成交 +0.35%
NEZHA	2511.18793	阿里 / 淘宝广告	WWW 2026	GR 推理加速，不改 SID	self-drafting 投机解码，驱动十亿级广告收入
CQ-SID	2605.14434	阿里淘天	preprint 2026-05	类目感知对比 RQ-VAE	层级 cluster ID + 专家引导 GRPO，覆盖 50% 以上生产曝光
MTGR	2505.18654	美团	CIKM 2025	非 SID，HSTU 特征 token	FLOPs 达 DLRM 的 65 倍，全量上线，边界工作
EGA-V2	2505.17549	美团	preprint 2025-05	层级 tokenization + 多 token 预测	端到端生成式广告统一兴趣、POI、创意、分配、计费
DOS	2602.04460	美团	WWW 2026 short	双流正交量化 SID	协同对齐码本与生成空间，部署数亿用户
MBGR	2604.02684	美团	preprint 2026-04	Business-aware SID，BID	业务专属 SID 防多业务共用单一 SID 空间混淆
GPR	2511.10138	腾讯 / 微信视频号广告	arXiv 2025-11	RQ-Kmeans，L=4	广告与内容共享多级 SID 空间 + 异构层次解码器
UniVA	2605.05803	腾讯 / 微信视频号广告	preprint 2026-05	Commercial SID	变现价值注入 SID 构造 + Generation-as-Ranking
Tencent Ad Challenge 2025	2604.04976	腾讯	preprint 2026-04	全模态 GR 数据集 + SID 构造	开放全模态 GR 基准 TencentGR-1M / 10M
GenRec	2604.14878	京东	preprint 2026-04	SID + Token Merger 压缩	page-wise 训练 + Token Merger 压缩，App 点击 +9.5%
UniRec	2604.12234	Shopee	preprint 2026-04	SID + 属性链前缀	SID 前缀加结构化属性 token 做判别式特征交叉
Spotify GLIDE	2603.17540	Spotify	preprint 2026-03	SID，离散播客目录	生产级播客生成式检索，新节目发现 +14.3%
LEMUR ⚠️	2511.10962	字节 / 抖音搜索	arXiv 2025-11	端到端多模态，疑无离散 SID	首个 raw-data 端到端多模态推荐

3.19 生成式但非 SID 的对照与反例

这些工作常与 SID 生成式推荐并列讨论，但 item 表示不是量化语义码，列此以澄清边界。

系统	实际 item 表示	说明
HSTU，Meta	原始行为或类别 ID	生成式 transduction，非量化 SID
MTGR，美团	HSTU + DLRM 特征	行为与特征 token
URM，阿里 2502.03041	multi-query 表示	LLM 通用检索器，非层级码本
LUM，阿里 2502.08309	user / item embedding	大用户模型三步范式
GenRank，小红书 2505.04180	item + action embedding	生成 action 而非 item SID
小红书搜索 RL 2512.00968	全文文本	生成相关性标签
JD Generative CTR 2507.11246	生成式预训练	无 SID
PinRec，Pinterest 2504.10507	实值向量	刻意放弃离散 SID 以规避坍缩，已上线 Homefeed 与 Search
RecGPT，阿里 2507.22879	LLM 生成的 tag 语义信号	三塔，非 RQ-VAE SID，淘宝全量上线
RankMixer，字节 2507.15551	特征交互	纯排序 scaling
Taobao 生成式重排 2505.07197	生成排列	list-level 重排
OneSug，快手	query 文本 token	query suggestion

四、判别式 SID 全景

判别式把 SID 当作特征、embedding 或检索单元，不做生成。按用途分八组。

4.1 SID 作排序特征

替代或补充随机哈希得到的 item ID embedding。

论文	arXiv	机构	会议·年份	SID 构造	核心设计思路	环节
Better Generalization with Semantic IDs	2306.08121	Google	RecSys 2024	RQ-VAE	判别式奠基，SID 替哈希 ID 提升长尾泛化	精排
Embedding Stability with Semantic ID	2504.02137	Meta	RecSys 2025	层级聚类 + prefix-ngram	语义有意义的碰撞，解表征漂移，已产线化	精排，广告
SIDE	2506.16698	Meta	AdKDD 2025	DPCA + VQ-fusion	无需 embedding table 还原 latent，解超长序列存储	精排 + 序列
Discrete Semantic Tokenization	2403.08206	PolyU + NUS + 华为	WWW 2024	离散 token	user 与 item 统一 token 化，约 200 倍压缩	精排，CTR
Q-BERT4Rec	2512.02474	上海理工大学	preprint 2025-12	RVQ 多模态 SID	量化多模态语义 token 替代任意 item ID	序列 + 精排
SaviorRec	2508.01375	阿里 / 淘宝	preprint 2025-08	RQ-SID + 动态码本	多模态表征对齐行为空间预测 CTR，点击 +13.21%	精排，冷启
COINS	2510.12604	快手	WWW 2026	RQ-OPQ 编码	SID 增强冷启 item 表征做电商搜索 CTR，买家 +3.5%	精排，冷启
SID-Coord	2604.10471	快手	SIGIR 2026	层级可训练 SID	协调哈希 ID 的记忆性与 SID 的泛化性，门控融合	精排，搜索
GateSID	2603.22916	阿里国际 AIDC	preprint 2026-03	RQ-VAE 多模态	按 item 成熟度自适应门控平衡语义与协同，GMV +2.6%	精排，冷启
Quantizing Intent	2606.01396	LinkedIn	preprint 2026-06	RQ-FSQ	自然流量跨域行为压成 SID 补稀疏广告排序信号	精排

4.2 SID 用于召回

双塔、近似最近邻、聚类语义 ID。

论文	arXiv	机构	会议·年份	SID 构造	核心设计思路	环节
Trinity	2402.02842	快手 / 抖音	preprint 2024-02	实时聚类统一 ID	统一 cluster-ID 建模多兴趣、长尾、长期兴趣	召回
M3CSR	DOI 3688098	快手	RecSys 2024	多模态聚类类目 ID	多模态聚成行为对齐类目 ID，无 arXiv	召回

4.3 多模态内容量化成 SID 作特征

面向冷启动与全链路对齐。

论文	arXiv	机构	会议·年份	SID 构造	核心设计思路	环节
QARM	2411.11739	快手	preprint 2024-11	RQ-Kmeans	多模态特征转可学习 SID 与传统 ID 联合优化	召回 + 精排
QARM V2	2602.08559	快手	preprint 2026-02	Res-Kmeans FSQ	LLM 增强终身序列，SID 增强 GSU 与 ESU	序列 + 排序
DAS	2508.10584	快手，广告	CIKM 2025	RQ-VAE，MLLM embedding	一阶段量化 + 双对齐，服务 4 亿以上用户	召回 + 排序
MMQ ⚠️	2508.15281	阿里系，待确认	WSDM 2026	Mixture-of-Quantization	shared-specific 专家平衡跨模态协同与独特性	召回 / 排序
Taobao Display Ads Multimodal	2407.19467	阿里 / 淘宝	CIKM 2024	多模态表征，离散化待确认	多模态表征增强 ID-based 排序	召回 + 排序

4.4 超长用户序列建模中的 SID

论文	arXiv	机构	会议·年份	SID 构造	核心设计思路	环节
UxSID	2605.09040	快手，广告	preprint 2026-05	Semantic IDs	semantic-group 共享兴趣记忆 + 双层注意力，营收 +0.337%	序列 + 精排

4.5 SID 质量提升：冲突与坍缩诊断

论文	arXiv	机构	会议·年份	机制	核心设计思路
Breaking the Hourglass Phenomenon	2407.21488	京东 + 中南大学 + 清华深圳	EMNLP 2024 Industry	RQ 坍缩诊断	揭示 RQ 的沙漏现象即中间层码过度集中并做利用率修复
QuaSID	2603.00632	快手电商	preprint 2026-02	冲突分级	Hamming-guided 斥力只惩罚有害冲突，GMV-S2 +2.38%
AdaSID	2604.23522	快手电商	preprint 2026-04	自适应碰撞处理	按局部碰撞负载自适应调节斥力，GMV +0.98%
DRQ	2606.01844	Shopee	preprint 2026-06	解耦残差量化	解耦几何重建与分布匹配，诊断码字 overlap 得鲁棒 SID

4.6 内存高效与混合 ID

论文	arXiv	机构	会议·年份	SID 构造	核心设计思路
RecJPQ	2312.06165	U. Glasgow	WSDM 2024	联合 PQ sub-item ID	PQ 式子嵌入共享，SASRec 与 BERT4Rec 内存降 47 倍
H2Rec	2512.10388	港城大 + 小红书	preprint 2025-12	SID + Hash ID 融合	头部用 Hash、尾部用 SID，标题 Best of Both Worlds
LLM2Rec ⚠️	2506.21579	NUS + USTC + SMU	KDD 2025	CF 感知语义 embedding，非码本	LLM 作 item embedding 模型，边界工作，非 SID token

4.7 用户侧 tokenization

论文	arXiv	机构	会议·年份	SID 构造	核心设计思路
U2QT	2508.00956	蚂蚁集团	preprint 2025-08	multi-view RQ-VAE，用户	把用户多源行为压成统一量化 token，内存降 84 倍
DSIRM	2606.04374	阿里淘天	preprint 2026-06	query-bridged 对比量化	query-item 交互监督量化，query 侧 LLM 预测 item SID

4.8 生成与判别混合及统一

LIGER｜2411.18814，Meta——生成式产候选，再用稠密检索做 SID embedding 的检索与重排，补冷启动。
DIG｜2605.14853，单作者机构未署，2026-05——把 tokenizer 嵌入判别式排序端到端训练，论证排序与检索是不同粒度的同一 argmax 问题，分别在 item 空间与 token 空间。
Semantic IDs at Snapchat｜2604.03949，Snap，SIGIR 2026 Industry——RQ 有序码 SID 既作判别式特征也可作生成式 token，重点是计算效率与产线集成的权衡。
Understanding GR with Semantic IDs｜2509.25522，MSU + Snap——SID 的 scaling 瓶颈实证，覆盖 44M 至 14B。

五、信息检索生成式检索源头

"SID + 生成式检索"的范式真正起源于信息检索。下列为常被推荐 SID 论文引用的源头工作，非推荐论文。

论文	arXiv	机构	会议·年份	docid 构造	核心思路
GENRE	2010.00904	Meta + UCL	ICLR 2021	实体名串	最早的自回归 ID 检索，约束 beam 生成实体名
SEAL	2204.10628	Meta + UCL	NeurIPS 2022	n-gram + FM-index	生成可区分 n-gram 再映回文档
DSI	2202.06991	Google	NeurIPS 2022	层级 k-means 语义 docid	源头，T5 把语料编进参数后自回归生成 docid
NCI	2206.02743	MSRA	NeurIPS 2022	层级 k-means docid	prefix-aware 解码器 + query 生成 + 一致性正则
DSI-QG	2206.10128	UQ + Google	arXiv 2022	DSI docid	用生成伪 query 做索引，修正索引与检索失配
DSI++	2212.09744	Google + CMU	EMNLP 2023	DSI docid	持续学习版，新增文档不遗忘
IncDSI	2307.10323	Cornell	ICML 2023	DSI docid	约束优化实时插入新文档，20–50ms
GenRet	2304.04171	山大 + 百度 + 莱顿	NeurIPS 2023	学习式离散 docid	离散自编码端到端学 docid，学习式 tokenizer 源头
GERE	2204.05511	中科院	SIGIR 2022	标题 + 句子 id	首个生成式证据检索
CorpusBrain	2208.07652	中科院	CIKM 2022	标题 docid	预训练生成式检索器，KILT
Ultron	2208.09257	RUC + 华为	arXiv 2022	URL 与 PQ 语义 docid	三阶段训练，普及 URL 与 PQ 语义 docid
TOME	2305.11161	百度 + RUC	ACL 2023	tokenized URL	先生成 passage 再生成 URL
MINDER	2305.16675	PolyU + MS	ACL 2023	多视图 ID，标题 + 子串 + query	多 identifier 视图任一检索
TSGen	2305.13859	RUC + 华为	SIGIR 2024	term-set docid	docid 为词集合，置换不变解码
SE-DSI	2305.15115	RUC + 中科院 + 百度	KDD 2023	描述式 docid	认知学习策略启发的描述性 docid
LTRGR	2306.15222	PolyU + MS	AAAI 2024	MINDER 多视图 ID	加 passage rank loss 对齐排序目标
GR-as-DR，Tied-Atomic	2306.11397	U. Amsterdam	arXiv 2023	绑定原子 docid	证明原子生成式检索近似稠密检索
GR Scaling Study	2305.11841	Google + Waterloo	EMNLP 2023	atomic / naive / 语义 docid 对比	百万级 passage 的 scaling 研究
RIPOR	2311.09134	UMass	WWW 2024	RQ relevance docid	RQ 语义 docid + 前缀排序，MS MARCO MRR +30.5%
GDR	2401.10487	机构未列	EACL 2024	cluster identifier	生成 cluster-id 再簇内稠密匹配
CorpusLM	2402.01176	RUC	SIGIR 2024	排序 docid 列表	统一生成式检索、闭卷问答、RAG
ListGR	2403.12499	U. Amsterdam	TOIS 2024	docid 列表	listwise 而非 pointwise 优化生成式检索
GR-as-MVDR	2404.00684	山大 + U. Amsterdam	SIGIR 2024	理论	证明生成式检索与多向量稠密检索共享框架
PAG	2404.14600	UMass	SIGIR 2024	集合 + 序列量化 docid	并行集合 ID 引导自回归，22 倍加速
DynamicRetriever	2203.00537	RUC	arXiv 2022	原子 docid embedding	早期 model-as-index
TDM	1801.02294	阿里	KDD 2018	层级聚类树	推荐侧树与层级 ID 召回的祖先
RecForest	OpenReview	机构未列	NeurIPS 2022	多 k 叉树，层级 k-means	推荐侧最贴近 DSI 层级 docid，无 arXiv
SimCIT ⚠️	2506.16683	机构未找到	preprint 2025-06	对比量化 item tokenize	以对比目标构造 SID，打破重建式方法的 item 独立假设

六、综述、方法论、数据集与工业落地

综述与方法论

文献	arXiv	机构	年份	价值
Discrete Tokenizers Survey	2502.12448	快手 + 港城大	2025-02	量化方法四分类 + 推荐域方法对照表
Practitioner’s Handbook / GRID	2507.22224	Snap	CIKM 2025 Best Resource	RQ-VAE、VQ、RQ-Kmeans、PQ、层级聚类的实证对比 + 开源框架
VQ4Rec	2405.03110	PolyU	2024-05	推荐域 VQ 综述，efficiency vs quality
GR-LLMs Survey ⚠️	2507.06507	机构未确认	2025-07	LLM 生成式推荐综述
Survey on Generative Recommendation ⚠️	2510.27157	机构未确认	2025-10	数据、模型、任务三视角
Generative Search & Rec in LLM Era ⚠️	2404.16924	机构未确认	2024-04	生成式搜索与推荐综述
Cold-Starts in GR: Reproducibility	2603.29845	莱顿 + RUC	2026-03	统一冷启协议对比 atomic、语义、文本 ID
AgenticTagger	2602.05945	Google / Snap 系	preprint 2026-02	LLM agent 协作生成受控词表 item 表示

工业界非 arXiv 落地

系统或文章	公司	来源·年份	SID 状态	要点
Home Feed 多目标优化中的 Semantic ID 多样性信号	Pinterest	工程博客 2026-04	已上线，2025 Q4	coarse→fine 离散化得分层 SID，作排序多样性信号，非生成式检索
Towards Generalizable Large-Scale Generative Recommenders	Netflix	Tech Blog 2025-03	讨论，未上线	multi-modal semantic tower 把 embedding 离散为 semantic token，未来方向
The generative recommender behind Shopify’s commerce engine	Shopify	Eng 博客 2026	探索中	已上线 item-ID 空间生成式召回，明确探索转向 SID token 空间
LLMs to build content embeddings	DoorDash	Eng 博客 2025	下一步	profile embedding 离散成 semantic ID 是明确的下一步
GENIAC 二次流通搜索与推荐基座	Mercari R4D	博客 + METI 2026-06	研发中	40 亿 listing 训练，query 上下文生成 SID 再匹配，日本国家项目

七、技术演进脉络

纵观 2017 至 2026，SID 主题沿以下几条线索演进。

7.1 量化方法：从单层到结构化、自适应、可微

单层 VQ-VAE 给出离散表示基座，但码本利用率与冲突难控。RQ-VAE 引入逐级残差量化得到 coarse→fine 有序码，成为生成式工作的默认 tokenizer。工业侧改用 RQ-Kmeans 与 balanced K-means 提高码本利用率，缓解沙漏现象。乘积量化 PQ 与 OPQ 给出无序码集合以支持并行生成。近期方向有三条：lookup-free 的 FSQ 抗坍缩；对比量化用邻域目标替代纯重建；软、可微、变长量化让 tokenizer 端到端可学并按信息量调整码长。

7.2 生成解码范式：自回归到并行与扩散

TIGER 确立逐位自回归生成有序 SID。自回归有串行延迟与顺序偏置两个问题。一条路线改用无序集合或多 token 并行预测，如 SETRec、RPG；另一条路线用掩码离散扩散按任意序并行生成，如 DiffGRM、LLaDA-Rec、MDGR、MaskGR，并出现连续 token 扩散的 ContRec 以规避 argmin 不可导。这是 2025 下半年至 2026 最活跃的方向之一。

7.3 协同信号融合：从纯内容到解耦与统一

纯内容 SID 缺少协同信息。LC-Rec 用对齐微调把协同语义注入码；LETTER 用语义、协同、多样性三正则；DiscRec、DECOR 在 embedding 层解耦语义与协同并加门控；UNGER 把两者统一为一套码以解决语义支配。趋势是从"先内容后对齐"走向"语义与协同联合建模"。

7.4 多模态与端到端可学习

多模态从单一文本扩展到文本、视觉、音频联合量化，如 MMGRec、MME-SID、PSRQ、FusID，并出现把协同特征当作额外模态的 MSCGRec、CARD。tokenizer 训练从两阶段分离走向端到端联合，如 ETEGRec，再到可微软标识符 DIGER、UniGRec 与双层优化 BLOGER，让推荐目标的梯度直接塑造 SID。

7.5 SID 质量、长度与表达力

冲突与坍缩诊断从 Hourglass 现象的揭示，发展到 Purely Semantic Indexing、HiD-VAE 的唯一性保证，再到 QuaSID、AdaSID 的冲突分级处理与 DRQ 的解耦残差量化。长度方向从固定短码扩展到长 SID 并行、变长码、token 剪枝与蒸馏，并有 Expressiveness Limits 从理论上指出树状自回归解码会人为拉近树相邻 item 的分数。

7.6 推理、强化学习与工业化

后训练从约束解码发展到 in-text reasoning 与 CoT，如 OneRec-Think、GREAM，再到以排名为单元的 RL，如 Rank-GRPO、MiniOneRec，以及潜空间推理 LASAR。工业化由 OneRec 端到端替代级联起步，扩散到各厂广告生产系统 GR4AD、GPR、UniVA、NEZHA、CQ-SID，并有 Understanding GR with Semantic IDs 从 44M 到 14B 实证 scaling 瓶颈。

7.7 判别式分线

判别式自 Better Generalization with Semantic IDs 起，沿"SID 作排序特征"展开：Meta 关注 embedding 稳定性与超长序列存储，如 SIDE；阿里、快手用多模态 SID 解冷启动，如 SaviorRec、QARM、GateSID；并扩展到用户侧 tokenization，如 U2QT、DSIRM。判别式与生成式在 LIGER、DIG、Snapchat SID 等工作中开始统一。

横向对比

代表工作	关键设计	量化方法	用法	代表结果
TIGER	层级 SID + T5 自回归	RQ-VAE	生成式	序列推荐 SOTA，具冷启动泛化
Better Generalization	SID 替哈希 ID 作特征	RQ-VAE	判别式	长尾泛化提升
OneRec	端到端替代级联 + RL	RQ-Kmeans	生成式工业	watch-time +1.6%，承接约 25% 流量
RPG	多 token 并行生成长 SID	OPQ 无序码	生成式	长 SID 并行解码
DiffGRM	掩码离散扩散	并行语义编码	生成式	任意序并行替代自回归
QARM	多模态 SID 与传统 ID 联合	RQ-Kmeans	判别式工业	多模态冷启动增强
RecJPQ	PQ 子嵌入共享	PQ	判别式	内存降 47 倍

本文为公开论文与已整理调研材料的客观二次组织与技术综述，数字、机构、venue 与结论以各论文原文为准。多篇为 2025 至 2026 的较新预印本，更新版本中细节、命名与 venue 可能微调；带 ⚠️ 处尤需在引用前核对。