COBRA详解

稀疏ID可以唯一表示item，有很好的区分性，但丧失了对item的细粒度信息刻画。纯文本可以准确可以item属性，但构造成prompt太长，套入到LLM中会导致资源消耗过大。那么如何结合两者的优点呢？COBRA首先根据codebook生成item的稀疏ID，该ID可以理解为item的大类别。既不过于精细，像unique id，又不过于宽泛。然后将ID序列输入到Transformer Decoder

transformer_WSZ

1093人浏览 · 2025-04-03 01:54:43

transformer_WSZ · 2025-04-03 01:54:43 发布

这是一篇生成式推荐用于召回场景的工作，其建模范式仍旧是输入端根据用户行为序列构造prompt，输出端预测next item。该工作巧妙地将稀疏ID与稠密向量表征级联融合起来，达到了SOTA水平。

传统方法对比

方案类型	核心技术	局限性
纯文本+LLM	直接使用广告文本特征	输入过长，资源消耗大
短语表征	关键词压缩表达	信息丢失严重
稠密表征+对比学习	端到端向量编码	建模复杂度高，缺少兴趣探索
稀疏ID生成	RQ-VAE量化技术	信息损失导致细粒度捕捉弱

COBRA介绍

稀疏ID可以唯一表示item，有很好的区分性，但丧失了对item的细粒度信息刻画。纯文本可以准确可以item属性，但构造成prompt太长，套入到LLM中会导致资源消耗过大。那么如何结合两者的优点呢？

COBRA首先根据codebook生成item的稀疏ID，该ID可以理解为item的大类别。既不过于精细，像unique id，又不过于宽泛。然后将ID序列输入到Transformer Decoder中预测稠密向量。

model

离线训练

两个预测任务的损失函数如下：
$\mathcal{L}_{\text {sparse }}=-\sum_{t=1}^{T-1} \log \left(\frac{\exp \left(z_{t+1}^{I D_{t+1}}\right)}{\sum_{j=1}^C \exp \left(z_{t+1}^j\right)}\right) \\ \left.\left.\mathcal{L}_{\text {dense }}=-\sum_{t=1}^{T-1} \log \frac{\exp \left(\cos \left(\hat{\mathbf{v}}_{t+1} \cdot \mathbf{v}_{t+1}\right)\right)}{\sum_{\text {item }_j \in \text { Batch }} \exp \left(\operatorname { c o s } \left(\hat{\mathbf{v}}_{t+1}, \mathbf{v}_{\text {item }}^j\right.\right.} \mathbf{}\right)\right)$

ID预测就是经典的多分类任务，dense vector就是经典的对比学习任务。

在线推理

稀疏ID生成：decoder根据beam search生成top $M$ 个ID，每个ID有其得分
稠密向量生成：根据每个稀疏ID继续生成dense vector，然后检索出同一个ID下的跟vector相似的top $N$ 个候选item
最终召回候选集生成：为了兼顾多样性（即不同ID）以及准确性（即同一ID下的候选item），联合打分取top $K$ 个item召回

在离线实验结果

offline

在公共数据集上，离线指标提升很明显。在A/B实验上，转化率和收入也在咔咔涨，就不细说了。

参考

火山引擎开发者社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OBS Studio音频分离：人声与背景音乐分离全攻略

你是否曾在直播或录屏时遇到这样的困境：想要单独调整人声音量却影响了背景音乐，或是后期剪辑时无法消除环境噪音？OBS Studio（Open Broadcaster Software Studio，开放广播软件工作室）作为免费开源的音视频录制与直播工具，提供了强大的音频处理框架，通过合理配置滤镜链与外部工具组合，可实现专业级别的人声与背景音乐分离。本文将系统讲解3种分离方案，从基础声道分离到AI驱动

火山引擎开发者社区

FireRedASR: 开源工业级自动语音识别模型使用教程

FireRedASR 是一套开源的工业级自动语音识别（ASR）模型，支持普通话、中文方言和英语。该模型在公开的普通话ASR基准测试中取得了新的最佳效果（SOTA），并且具有出色的歌声识别能力。FireRedASR 包括两种变体：- FireRedASR-LLM：采用编码器-适配器-LLM框架，利用大型语言模型（LLM）的能力，旨在实现最佳性能和无缝端到端语音交互。- FireRedASR-

火山引擎开发者社区

FireRedASR项目使用与启动教程

FireRedASR项目是一个开源的自动语音识别（ASR）模型项目，其目录结构如下：- `assets/`：包含项目所需的资源文件，如音频示例等。- `examples/`：包含项目运行示例脚本，用于演示如何使用ASR模型进行语音识别。- `fireredasr/`：包含项目的核心代码，包括模型定义、数据处理等。- `pretrained_models/`：用于存放预训练模型文件。-