📝 GR4AD论文总结-详细版

## (2026-04-02) Generative Recommendation for Large-Scale Advertising
作者: Ben Xue; Dan Liu; Lixiang Wang; Mingjie Sun; Peng Wang; Pengfei Zhang; Shaoyun Shi; Tianyu Xu; Yunhao Sha; Zhiqiang Liu; et al.
期刊: (发表日期: 2026-04-02)
期刊分区:
本地链接: Xue 等 - 2026 - Generative Recommendation for Large-Scale Advertising.pdf
DOI: 10.48550/arXiv.2602.22732
摘要: Generative recommendation has recently attracted widespread attention in industry due to its potential for scaling and stronger model capacity. However, deploying real-time generative recommendation in large-scale advertising requires designs beyond large-language-model (LLM)-style training and serving recipes. We present a production-oriented generative recommender co-designed across architecture, learning, and serving, named GR4AD (Generative Recommendation for ADdvertising). As for tokenization, GR4AD proposes UA-SID (Unified Advertisement Semantic ID) to capture complicated business information. Furthermore, GR4AD introduces LazyAR, a lazy autoregressive decoder that relaxes layer-wise dependencies for short, multi-candidate generation, preserving effectiveness while reducing inference cost, which facilitates scaling under fixed serving budgets. To align optimization with business value, GR4AD employs VSL (Value-Aware Supervised Learning) and proposes RSPO (Ranking-Guided Softmax Preference Optimization), a ranking-aware, list-wise reinforcement learning algorithm that optimizes value-based rewards under list-level metrics for continual online updates. For online inference, we further propose dynamic beam serving, which adapts beam width across generation levels and online load to control compute. Large-scale online A/B tests show up to 4.2% ad revenue improvement over an existing DLRM-based stack, with consistent gains from both model scaling and inference-time scaling. GR4AD has been fully deployed in Kuaishou advertising system with over 400 million users and achieves high-throughput real-time serving.
笔记日期: 2026/5/14 16:27:25

📜 研究核心


Tips: 做了什么,解决了什么问题,创新点与不足?

这篇论文的核心问题:
现有生成式推荐(像LLM那样生成推荐结果)用在广告系统里有三大痛点:

  1. 广告物料很复杂(视频、商品、广告主信息都有),怎么把它变成模型能“生成”的 统一语义ID

  2. 广告目标不是猜用户喜欢啥,而是要 优化商业价值(比如eCPM),并且要 列表级 地排好序,不是单个物品。

  3. 广告线上服务要求 低延迟、高吞吐(<100ms,500+ QPS),生成式模型(自回归解码)很慢,怎么加速?

论文的答案:

  • UA-SID → 统一广告ID

  • VSL + RSPO → 价值导向的在线学习

  • LazyAR + DBS → 高效解码与服务

⚙️ 内容

本文针对大规模广告推荐系统中部署实时生成式推荐模型所面临的三大核心挑战,提出了一套生产级解决方案 GR4AD(Generative Recommendation for ADvertising)。具体问题包括:

(1) 广告数据的 Tokenization 难题,即广告创意融合了视频、产品、广告主等多模态、多粒度信息,且包含大量非语义的业务信号(如转化类型、账户ID),传统语义ID难以全面捕捉;

(2) 学习范式与业务目标不匹配,广告推荐优化目标是列表级的商业价值(如eCPM)和排名指标(如NDCG),而现有生成式推荐多采用逐项监督或LLM-style的偏好优化,缺乏列表级的排名感知学习;

(3) 实时服务约束严苛,广告系统必须在高流量、低延迟(<100ms)、高吞吐(500+ QPS)的条件下生成多个高质量候选,这与LLM的单轮交互式解码场景截然不同。

为此,GR4AD 从表示、学习和服务三个维度进行了协同设计:提出了统一广告语义ID(UA-SID);设计了价值感知在线学习框架(VSL + RSPO);并实现了面向推荐的高效解码与服务优化(LazyAR + 动态波束服务)。

大规模在线A/B测试显示,相比于现有的DLRM堆栈,GR4AD 带来了高达4.2%的广告收入提升,并在快手广告系统中成功部署,服务超过4亿用户。

💡 创新点

  • 统一广告语义ID (UA-SID): 提出了一种端到端微调的MLLM嵌入模型UAE,通过指令微调(6种prompt模板覆盖快手广告类型)和共现学习(基于Swing方法的对比学习)来融合多模态内容与协作信号;并设计了多粒度多分辨率RQ-Kmeans(MGMR RQ-Kmeans)量化方法,采用平衡K-means提升码本利用率,并在最后一层用哈希映射替代向量量化以处理非语义业务信息,从而显著降低SID冲突并提升码本平衡性。
  • 惰性自回归解码器 (LazyAR): 针对广告推荐中首级SID最难学习但对波束搜索计算贡献小,而后缀SID相对简单却消耗大部分计算资源的不匹配问题,提出将自回归依赖延迟到中间层(第K层)。前K层对所有UA-SID级别并行计算并跨波束共享,仅后L-K层进行自回归计算,在不牺牲模型效果(通过保持首级解码完整性和引入MTP辅助损失)的情况下,将解码吞吐量提升了一倍,实现了灵活的效率-精度权衡。
  • 价值感知在线学习: 提出了VSL(价值感知监督学习),通过对eCPM进行分桶并作为辅助token进行预测,以及基于用户长期广告价值和交互深度的样本加权,使模型学习用户兴趣分布时自动偏向高商业价值样本。
  • 排名引导的Softmax偏好优化 (RSPO): 提出了一种列表级的强化学习算法,直接从Lambda梯度推导出NDCG损失的上界,通过对列表内候选对的排名差异进行软优化,并引入可靠性门控(C_ij)来应对异构训练样本和分布漂移问题,从而显式优化列表级指标。
  • VSL与RSPO的统一在线学习: 提出了一种动态权重机制,通过计算模型概率排名与奖励排名之间的归一化秩差异(A(i)),自适应地调整每个样本在VSL和RSPO损失中的权重,在保持用户兴趣分布的稳定性和探索高价值物品之间取得了平衡。
  • 面向推荐的服务效率优化: 提出了动态波束服务(DBS),包括动态波束宽度(DBW)和流量感知自适应波束搜索(TABS),以及短TTL缓存,以适应在线负载波动并控制计算成本。

🧩 不足

  • LazyAR的通用性受限: 作者明确指出该设计是针对推荐场景的,不适用于典型LLM解码。因为在LLM服务中,波束搜索通常不使用或波束很小,且后续token的预测难度不一定下降,因此延迟自回归依赖可能带来有限的加速效果,且不适用于长、变长文本生成。
  • MTP辅助损失的探索: 虽然LazyAR中采用了MTP损失来鼓励前K层学习更丰富的表示,但作者在文中提到,探索前K层执行更多推理步骤或融入潜在推理的能力留给了未来工作,表明该方向仍有优化空间。
  • 参考模型的可靠性: RSPO中的参考分布pref可能因分布漂移和训练-服务不一致而过时,虽然通过C_ij门控来缓解,但门控阈值δ的设定需要经验调优,系统的鲁棒性可能受此影响。
  • 实验设置的局限性: 尽管在线A/B测试展示了显著提升,但文中未提供详细的消融实验来量化每个组件(如UA-SID、LazyAR、VSL、RSPO、DBS)对最终4.2%广告收入提升的独立贡献。对离线实验的MLP Metric等指标的解释不够深入。
  • 可复现性: 作为工业系统论文,部分技术细节(如MLLM的具体规模、LazyAR中K的确切值、TABS的具体参数)可能因商业机密或系统配置而未完全公开,使得学术界难以完全复现。

🔁 研究内容


💧 数据

  • 数据集名称: 未明确指出公开数据集名称;论文基于快手(Kuaishou)广告系统的真实生产数据。

  • 样本量规模: 在线系统服务超过4亿用户,每天处理海量曝光和交互数据。离线训练数据规模未具体给出,但提到了训练样本来自多个生产管线(包括GR4AD自身和其他模型)。

  • 数据特征:

    • 多模态内容: 视频(视觉帧、ASR、OCR、BGM)、产品(价格、标题、Slogan)、广告主(区域、粉丝数、价值)。
    • 用户行为: 用户与广告的交互序列(如点击、购买等),用于共现学习(Swing方法计算共现强度)。
    • 业务信号: 非语义特征,如物品/账户ID、转化类型(Conversion Types)、广告账户ID。
    • 结构化特征与跨域序列: 描述用户和上下文的稠密及稀疏特征。
  • 数据预处理:

    • 指令微调: 设计了6种指令模板,针对不同的广告类型(如直播主播、离线广告主)指导MLLM关注不同属性。
    • eCPM离散化: 将连续的eCPM值划分为等概率桶,生成eCPM token。
    • 样本加权: 为每个样本计算权重 w = w_user * w_behavior,其中w_user基于用户长期广告价值,w_behavior基于用户交互深度(如购买权重 > 点击权重)。

👩🏻‍💻 方法

  • 核心架构:GR4AD 是一个生成式推荐系统,由表示、学习和服务三部分协同设计。

  • 表示 (Representation):

    • UAE (Unified Advertisement Embedding): 采用MLLM(多模态大语言模型)作为基础。通过指令微调(Instruction Tuning)使模型理解不同广告类型的语义,通过共现学习(Co-occurrence Learning,使用InfoNCE损失)注入协作信号。

    • MGMR RQ-Kmeans:

      • 多分辨率 (MR): 低层使用更大的码本捕捉主要语义因子,高层使用更小的码本建模低熵残差。每层应用平衡K-means聚类以提高码本利用率。
      • 多粒度 (MG): 最后一层(或最后一层)不用向量量化,而是使用基于非语义特征(如物品/账户ID、转化类型)的哈希数值映射,以改善全局平衡并减少冲突。
      • 输出: 每个广告映射为一个离散的UA-SID序列 y = (s1, s2, …, sT),T通常很小。
  • 架构 (Architecture):

    • 上下文处理器: 采用轻量级线性网络(LazyDecoder [40]风格)处理结构化特征和用户交互序列,输出上下文表示X。

    • LazyAR解码器:

      • 给定参数K (1 ≤ K < L),对于每个UA-SID级别t:
        m(0)_t = p_t (位置编码)
        m(l)_t = Dec(l)(m(l-1)_t, X), for l=1,…,K (并行计算,不依赖上一级token)
      • 在第K层注入上一级token: m̃(K)_t = Fuse(m(K)_t, s_{t-1})。Fuse函数为轻量级门控投影:Fuse(m, s) = W_f [m ⊙ (W_g s); s]。
      • 继续应用剩余L-K层自回归解码: h(l)_t = Dec(l)(h(l-1)_t, X), for l=K+1,…,L。
      • 最后通过Softmax分类器预测s_t。
  • 学习 (Learning):

    • VSL (Value-Aware Supervised Learning):

      • 标准SID token预测损失 L_SID = -Σ log p(s_t | s_<t, X)。
      • ECPM token预测损失 L_eCPM = -log p(v | y, X),v为离散化eCPM。
      • 最终NTP损失 L_NTP = L_SID + λ_e L_eCPM。
      • 应用价值感知样本加权 w = w_user * w_behavior。
      • MTP辅助损失 L_MTP:训练时,将前K层状态 h(K)_t 设置为 m(K)_t(不注入s_{t-1}),强制主干网络提供足够信息,与L_NTP联合优化。
      • 最终VSL目标:L_VSL = E_D[ w * (L_NTP + λ_mtp * L_MTP) ]。
    • RSPO (Ranking-Guided Softmax Preference Optimization):

      • 针对候选列表Y = {y1, …, yn},奖励为v_i (eCPM)。
      • 目标是优化NDCG,其损失上界为:
        L_RSPO = -E[ log_2 σ(- Σ M_ij * (β * log(p_θ(y_j|X)/p_ref(y_j|X)*C_ij) - β * log(p_θ(y_i|X)/p_ref(y_i|X)*C_ij)) ) ]。其中E_i = {y_j | v_j < v_i},M_ij是Lambda梯度权重。
      • 引入了可靠性门控C_ij:当参考模型pref可用且当前模型预测与pref的KL散度小于阈值δ时启用,否则丢弃。
    • 统一在线学习:

      • 计算归一化秩差异 A(i) = |r_p(i) - r_v(i)| / (n-1)。
      • 动态调整权重:w_VSL(i) = w_0 * exp(A(i) * log(1 + v_i)),w_RL(i) = w_0 * Z_max * (1 - A(i))。当A(i)大时,VSL权重高;当A(i)小时,RL权重高。
      • 最终目标 L = E[ w_VSL * L_VSL + w_RL * L_RSPO ]。
  • 服务 (Serving):

    • 动态波束服务 (DBS): 包含动态波束宽度(DBW,根据在线负载调整波束大小)和流量感知自适应波束搜索(TABS,根据流量峰谷调整计算量)。
    • 短TTL缓存: 缓存最近生成的结果以减少重复计算。
    • 系统架构: 包括实时推理服务器、实时索引模块(Item-SID映射)、在线学习模块(闭环:采样-推理-日志-VSL/RSPO训练-参数同步-服务)和奖励系统。

🔬 实验

  • 实验设计: 大规模在线A/B测试(Online A/B tests)。实验在快手(Kuaishou)广告系统上进行,对比基线为现有的DLRM-based堆栈。

  • 基线算法/模型 (Baselines): 一个现有的基于深度学习推荐模型(DLRM)的生产系统堆栈(未提及具体模型名,但暗示是类似DIN、DIEN等的架构)。

  • 核心评估指标 (Metrics):

    • 核心指标: 广告收入提升(ad revenue improvement),报告为4.2%。
    • 服务指标: 延迟(Latency <100ms)、吞吐量(Throughput 500+ QPS per L20 GPU)、模型规模(0.16B参数量)。
    • 离线指标: 文中提到MLP Metric,但未详细定义,可能指代列表级排序指标如NDCG或业务价值指标。消融实验可能涉及这些指标。
  • 消融实验结果: 论文提到,当设置K=2/3L时,LazyAR在保持推荐质量的同时,将推理吞吐量翻倍。在线A/B测试显示,从模型规模扩展(模型增大)和推理时计算扩展(如动态波束宽度)两方面都带来了一致的收益提升。

📜 结论

定量结果: 大规模在线A/B测试表明,GR4AD相比现有的DLRM-based堆栈,带来了高达4.2%的广告收入提升。系统在严格资源预算下(每张L20 GPU),实现了<100ms的低延迟和500+ QPS的高吞吐。GR4AD已在快手广告系统中全面部署,服务超过4亿用户。

定性结论: 研究者得出结论,通过从架构、学习和服务三个维度进行面向推荐的协同设计,生成式推荐可以成功部署于大规模、实时的广告系统中,并在商业价值上超越传统的DLRM堆栈。UA-SID有效统一了广告的多模态语义与非语义业务信息;LazyAR在不牺牲效果的前提下显著提升了解码效率;VSL和RSPO的统一在线学习框架解决了价值对齐和列表级优化问题;动态波束服务进一步优化了在线推理的计算成本。

未来展望: 论文在讨论LazyAR部分提到,由于前K层跨波束共享且计算成本低,未来可以探索将这些层扩展,使其执行更多的推理步骤或融入潜在推理(latent reasoning),从而为提升模型效果提供额外能力。此外,将GR4AD范式扩展到更多推荐场景(如搜索、电商等)也是未来的潜在方向。

🤔 个人总结


Tips: 你对哪些内容产生了疑问,你认为可以如何改进?

1.这篇论文的核心问题:
现有生成式推荐(像LLM那样生成推荐结果)用在广告系统里有三大痛点:

  1. 广告物料很复杂(视频、商品、广告主信息都有),怎么把它变成模型能“生成”的 统一语义ID

  2. 广告目标不是猜用户喜欢啥,而是要 优化商业价值(比如eCPM,并且要 列表级 地排好序,不是单个物品。> effective Cost Per Mille

    千次展示有效收益

    通俗解释(广告行业最核心指标)

    广告平台每让广告展示 1000 次,能赚到多少钱

  3. 广告线上服务要求 低延迟、高吞吐(<100ms,500+ QPS),生成式模型(自回归解码)很慢,怎么加速?

论文的答案:

  • UA-SID → 统一广告ID

  • VSL + RSPO → 价值导向的在线学习

  • LazyAR + DBS → 高效解码与服务

2. 什么是 UA‑SID(统一广告语义ID)?

通俗解释
就像把每个商品编成一个“词”,让生成模型能“说出”这个词。
但广告ID要同时包含:
视频内容、商品属性、广告主信息、还有用户点击/转化信号。
做法

  • 用多模态大模型(Qwen3-VL)做指令微调(6种广告模板)→ 得到好的embedding

  • 再用一种叫“多粒度多分辨率RQ-Kmeans”的量化方法,把这个embedding转成几个离散的数字(比如[123, 45, 678]),最后一层甚至用哈希映射来处理非语义信息(比如账户ID)。
    作用:减少ID冲突,码本更均衡。

你先记住:UA‑SID = 把复杂广告变成一组数字ID,而且这组ID既懂内容又懂协同信号。

3. 什么是 LazyAR(惰性自回归解码)?

通俗解释
生成推荐时通常是一个一个ID“吐出来”:
s1 → s2 → s3 → ...
奇怪的是:第一个ID 
s1 最难学,但计算量小;后面ID简单,计算量却大(因为波束搜索会膨胀)。
LazyAR 的 trick:前几层计算不依赖上一个ID,可以并行算;只在最后几层才依赖上一个ID。
结果:速度翻倍,效果几乎不变。

4.VSL + RSPO 是什么?

简单说,这是 GR4AD 中两阶段联合的在线学习策略,目的是让生成式推荐模型既学会用户喜欢什么(历史行为),又学会什么广告更值钱(商业目标),并且保持在线更新


VSL(Value-Aware Supervised Learning)—— 价值感知的监督学习

核心思想
传统监督学习只看“用户点击了哪个广告”,但广告场景中不同的用户、不同的交互深度,商业价值天差地别。VSL 让模型在模仿历史数据时,
自动给高价值样本更大的权重

怎么做的(简化为三条):

  1. 加一个 eCPM 预测任务
    把连续 eCPM 值分成若干个桶(比如“低价值、中价值、高价值”),让模型在生成完广告 ID 后,再多预测一个“价值 token”。
    → 强迫模型理解广告的商业价值。

  2. 样本加权
    每个样本的权重 = 
    用户长期广告价值 × 交互深度
    例如:高消费用户 + 购买行为 → 权重很大;低活跃用户 + 仅浏览 → 权重很小。
    → 模型训练时更关注“值钱”的样本。

  3. 辅助 MTP 损失(配合 LazyAR 架构)
    帮助前几层并行层学得更好。

一句话总结 VSL

在传统 next-token 预测基础上,加入价值感知(eCPM 预测 + 样本加权),让模型偏向学习高商业价值样本。


RSPO(Ranking-Guided Softmax Preference Optimization)—— 排名引导的 Softmax 偏好优化

核心思想
VSL 只是“拟合历史分布”,但历史上没出现过的、可能更赚钱的广告组合,VSL 不会主动探索。RSPO 是一种
列表级强化学习,直接优化最终广告列表的排序质量(比如 NDCG),而不是单个物品的点式奖励。

为什么需要它

  • 广告系统输出的是一个排序后的广告列表,而不是单个广告。

  • 列表的整体排序好坏(高 eCPM 的排前面)直接影响收入。

  • 纯监督学习无法直接优化列表指标。

怎么做的(简化版):

  1. 对于一个请求,模型生成一组候选广告列表(比如 512 个广告)。

  2. 每个广告有一个真实奖励(eCPM)。

  3. RSPO 会比较列表内每对广告:如果高奖励的广告被排在了低奖励的后面,就施加惩罚。

  4. 惩罚力度根据它们排名位置差奖励差来调整(来自 LambdaLoss 框架),最终目标是最小化 NDCG 损失的上界

  5. 还加了一个“可靠性门控”:只有当前模型预测与历史参考分布差距不大时,才使用参考分布做正则化,避免陈旧数据干扰。

一句话总结 RSPO

列表级 RL 算法,通过软性比较列表内广告对的排名差异,直接优化 NDCG 等排序指标,比 DPO/GRPO 更适合广告排序。


VSL + RSPO 如何统一?

两者不是简单的“先 VSL 后 RSPO”,而是在同一个在线学习流中动态融合

核心机制
对于每个样本,计算
模型偏好排名真实价值排名之间的归一化秩差异 A(i)

  • 如果 A(i) 很大 → 模型还不太懂用户兴趣分布 → 多用 VSL(模仿学习)

  • 如果 A(i) 很小 → 模型已经基本学会了 → 多用 RSPO(价值排序优化)

最终损失 = 加权 VSL 损失 + 加权 RSPO 损失,权重由 A(i) 自适应调整。

好处

  • 既保持对用户兴趣分布的拟合(不漂移太远)
  • 又能主动向高商业价值方向探索
  • 在线更新稳定,不会因为单纯 RL 导致崩溃

🙋‍♀️ 重点记录

📌 待解决

💭 思考启发