BLaIR: Bridging Language and Items for Retrieval and Recommendation

基本信息

字段	内容
标题	Bridging Language and Items for Retrieval and Recommendation: Benchmarking LLMs as Semantic Encoders
作者	Yupeng Hou, Jiacheng Li, Xiangjun Fu, Zhankui He, An Yan, Xiusi Chen, Julian McAuley
机构	University of California San Diego
年份	2026 (ACL’26)
方向	Pretrained Item Embedding, Language-Item Alignment, Retrieval & Recommendation
场景	推荐系统中用于检索/排序的 item 文本预训练表示
数据	Amazon Reviews 2023
arXiv	https://arxiv.org/abs/2403.03952

BLaIR是发表自UCSD，BLaIR这篇文章提出了最新的Amazon Review数据集：Amazon Review 2023，BLaIR也是其中的一个创新点，BLaIR是专门为推荐任务做的Pretrained Embedding Model。

背景/动机/创新点

推荐领域中的任务应当能够利用丰富的自然语言语义信息，早期的工作基本将关注点放在了数据集中的“关键词”语义上，并没有充分发挥自然语言语义信息。

LLM的兴起让推荐系统领域看到了应用LLM的前景，然而如何将巨大量级的item信息与现存LLM结合是一个主要难题，现有（2023）的工作主要分为以下两种方式解决：

沿用RAG等类似方法，但是其在特定领域的端到端实现泛化性不强。
利用Embedding模型将item和自然语言映射到同一个空间，但是目前（2023）没有专门针对推荐任务的Embedding方法，会导致次优性能和泛化问题。

作者认为方法二针对特定推荐任务的实现存在三个难点：

训练目标如何定义？
数据应当大量收集，且要用比较新的语料库去匹配现有LLM的学习到的知识的“截止日期”
数据要合理管理避免污染，要采用公平的评估手段。

为此，作者提出BLaIR Embedding模型，同时发布Amazon Review 2023数据集，在该数据集上训练BLaIR并把训练目标定义为将用户评论与其相应的项目元数据配对。此外，作者通过固定时间戳将数据分为训练集和测试集，避免了数据污染（咋避免的？）

主要创新点：

提出BLaIR模型。
发布Amazon Review 2023数据集。
提出新训练任务：Complex Product Search，使用LLM构建了一个半合成评估集。
基于Amazon Review 2023建立新的Benchmark，并在现有方法的基础上验证了BLaIR的效果和泛化性。

模型改进

BLaIR并没有原创性设计新的模型架构，它只是基于现有的一些Embedding模型应用新的训练目标和数据集（基于BaseModel参数继续pretrain），因此BLaIR指的应该是一系列的Embedding模型。

训练目标如下图：

Lcl：基于In-batch负采样的Contrastive Loss（Log Softmax）。

Lpt：base模型对应的原有训练目标（BERT/RoBERTa的MLM和T5的DAE）

没了。

实验设计

实验任务:

序列推荐任务实验
conventional product search实验
complex product search实验
泛化性和动态训练分析实验

数据集：Amazon Review 23 固定两个时间戳8:1:1划分train/valid/test

sample格式：两个句子，sentence1=[review_title, review_content]，sentence2=[item_title, item_features, item_description]

数据清理

过滤少于30字符数的样本
对Amazon Review 23 数据集采用10%降采样

序列推荐任务实验

训练任务是给定包含metadata的交互item序列，预测下一个item，这里BLaIR先对每个item data进行embedding再送入序列推荐模型

评估指标：

NDCG
Recall

Baseline：

SASRec
UniSRec

Conventional Product Search

训练任务是给定用户query（通常包含几个关键词或短段落），预测用户下一个感兴趣的item

数据集：ESCI，也是Amazon平台的数据。

Complex Product Search

数据集：Amazon-C4

样本内容：长、详细且复杂的用户query（通常是多轮对话和复杂的用户指令）

Amazon-C4的数据集是使用ChatGPT基于真实user review构建的（让gpt以用户口吻生成多轮对话）

评估指标：

Recall
NDCG

泛化性和动态参数分析实验

想解决的问题：

multi-domain training效果是否会比in-domain training效果好
BLaIR采取哪种训练顺序效果会更好（1.对比学习 2.MLP/DAE 先后/后先/同时）

对于第一个问题，这个问题是在探讨：“使用所有品类的数据（多域）来训练 BLAIR，是否会比只用特定品类的数据（单域）训练，效果更好？”

具体来说，论文中的实验是这样做的：

In-domain training (单域训练)： 选定一个下游任务的特定领域，比如 “Games”（游戏）领域。然后，只使用 AMAZON REVIEWS 2023 数据集中 “Games” 这一个品类的数据来训练一个 BLAIR 模型。
Multi-domain training (多域训练)： 使用 AMAZON REVIEWS 2023 数据集中 所有 33 个品类 的数据来训练一个 BLAIR 模型。

然后，他们在 “Games” 领域的下游任务（如序列推荐、产品搜索）上比较这两个模型的性能。

实验的答案是：是的，多域训练表现更好。

论文发现，在所有域上训练的模型（multi-domain）在 “Games” 任务上的表现普遍优于只在 “Games” 域上训练的模型（in-domain）。这表明，在多品类数据上进行预训练能够提高 BLAIR 的泛化能力，即使目标任务的数据分布可能与多域数据有所不同。

对于第二个问题，在这篇论文中，作者比较了两种不同的训练“课程”：