你的位置:伦理片在线看 > 素人播播 >

农夫导航大全 KDD'25 | 生成式拍卖:感知排列外部性的整页优化机制

农夫导航大全 KDD'25 | 生成式拍卖:感知排列外部性的整页优化机制

允中 发自 凹非寺农夫导航大全

从“先预估后分派”的判别式方法,到奏凯面向最终拍卖截止的生成式方法,生成式模子能否为在线告白的拍卖机制优化带来抓续增量?

本文先容阿里姆妈展示告白机制计策团队在 AIGA(AI-Generated Auction)宗旨的前沿探索-生成式拍卖研究责任。

基于该项责任整理的论文已被KDD’25 Research Track招揽。

节录

告白拍卖机制想象算作在线告白系统的枢纽一环,在抓续优化告白主和平台收益方面起着至关枢纽的作用。传统的广义二价拍卖(GSP)等拍卖机制依赖于点击率分离假定(将告白点击率拆分为告白本身质料分和告白位曝光权重的乘积),忽略了页面中同期展示的其它商品的影响,即外部性影响。

连年来,基于深度学习的拍卖机制显贵增强了对高维凹凸文特征的编码才能,然则现存方法仍受限于“先预估后分派”的想象范式。这种范式只可建模参竞告白搭伙内的外部性,无法捕捉最终分派截止的整页凹凸文信息(即排列外部性),因此难以敛迹到全局最优解。本文系统分析了在排列外部性影响下的最优拍卖机制,在表面最优解的基础上,研究团队建议了首个使用生成式模子建模排列外部性的告白拍卖机制-生成式拍卖(Contextual Generative Auction, CGA)。

该框架通过自回想模子生成告白分派截止,并将引发兼容(Incentive Compatibility, IC)要求量化为最小化过后后悔(ex-post regret),齐备端到端学习最优计费端正。大边界离线实验和在线 A/B 实验标明 CGA 能显贵进步平台收入等关节目的,同期有用贴近表面最优拍卖的截止。

论文:Contextual Generative Auction with Permutation-level Externalities for Online Advertising

作家:Ruitao Zhu, Yangsu Liu, Dagui Chen, Zhenjia Ma, Chufeng Shi, Zhenzhe Zheng, Jie Zhang, Jian Xu, Bo Zheng, Fan Wu

小引

在线告白系统的最优拍卖机制旨在最大化平台盼愿收入,同期满足经济学性质,包括引发兼容和个体感性(Individual Rationality, IR),而况需要满足系统在线部署的蓄意时延要求。IC 要求要求告白主委果报价最大化其本身服从,IR要求要求告白主的服从非负。

在典型的点击计费(Cost-per-Click, CPC)多坑告白场景下,告白拍卖机制的成果依赖于对告白点击率(CTR)的预估准度。平常使用的 GSP 等机制使用精排阶段的单点预估 CTR,忽略了页面展示的其它商品的影响。而实践场景中,用户浏览的页面包括多个商品,用户在决策前连接会对不同商品进行比较,因此同期曝光的其它商品会对宗旨告白的 CTR 产生影响,称为“外部性” [1]。

基于深度学习的拍卖机制,如 Deep Neural Auction(DNA [2])和 Score Weighted VCG(SW-VCG [3])等责任探求使用深度集中形容外部性影响以进步平台收入。谈论词不管是 DNA 承袭的先预估告白 rankscore 再进行排序,如故 SW-VCG 使用的先预估单调性分数再求解二部图最大匹配,这些方法骨子上齐受到“先预估后分派”(allocation-after-prediction)范式的局限,预估时的凹凸文信息与分派后的最终凹凸文信息不一致,因此模子只可捕捉到粗粒度的告白候选集层面的外部性。另一方面,Neural Multi-slot Auction(NMA [4])等机制承袭类似 VCG 拍卖的口头,遍历悉数可能的排列截止以求解最优分派,然则极高的蓄意复杂度使其难以利用于在线场景。

阐明 Myerson 拍卖表面 [5],拍卖机制的 IC 要求要求告白主得回的盼愿价值对于其出价满足非递减干系。大遍及现存方法通过保证排序公式中出价的权重为正,使得告白主提跳跃价能得回调换或更前置的告白位。然则在排列外部性的影响下,即使告白候选集保抓不变,将告白分派到的坑位前置反而可能导致其盼愿价值下落。图 1 给出了不同告白的分坑位 [点击率 * 曝光率](暗示 CPC 机制下的告白主盼愿价值)的实验数据,二者的干系并不悦足单调性。因此,在排列外部性影响下,怎么想象满足引发兼容要求的分派端正是一个非粗俗的问题。

图1:告白分坑位 [点击率 * 曝光率]

本文旨在探索在排列外部性影响下,满足 IC 和 IR 料理的收入最大化告白拍卖机制的基本状貌和高效齐备。咱们领先给出系统性的表面分析,认识注解最优解保留 Myerson 最优拍卖的基本状貌,即分派端正和计费端正不错进行解耦。在表面最优解的基础上,引入经典的生成器-评估器(Generator-Evaluator)架构,构建感知排列外部性的生成式拍卖。终末,进行工业数据集上的离在线实验,在多维度目的上对比现存的拍卖机制研究责任。

问题建模与表面分析

在线告白场景不错概述成一个典型的多坑拍卖问题。对于每条用户苦求,由个告白主(不错是手动调度出价或者自动出价代理)对 个告白位进行出价。告白主阐明本身的独到估值 提交出价 , 其中苦守价值分散 。给定出价向量, 用户特征向量 以及悉数参竞告白的特征向量 ,平台的拍卖机制决定分派有筹办 以及告白主的计费 ,其中 暗示告白 分派到告白位 。

告白拍卖中的外部性指的是竞胜告白主的服从会受到其它竞胜告白的影响 [1]。对于 CPC 多坑拍卖,外部性影响主要反应在告白 CTR 上。咱们用 暗示恣意感知排列外部性的 CTR 模子,告白 的 CTR 不错暗示为 ,不错简化暗示为 。

在上述排列外部性的拍卖机制建模下,告白主 的盼愿服从为

拍卖机制的引发兼容(IC)要求要求委果报价 最大化其盼愿服从 ,个体感性(IR)要求则要求告白主服从非负。告白拍卖机制宗旨为最大化平台盼愿收入

且满足IC和IR料理。

求解收入最大化机制的直不雅想法是罢职经典的 Myerson 拍卖,咱们将排列外部性引入 Myerson 拍卖,不错写成如下状貌,其中 暗示经过 iron 操作后的假造价值函数(确保函数单调性):

分派端正:

计费端正:

需要防范的是,由于排列外部性的引入,在最终分派截止中其它告白的影响下,告白主提跳跃价不一定会提高最终的 CTR,因此 Myerson 表面中的“单调分派”性质在排列外部性影响下是否斥地需要再行论证。咱们表面认识注解了上述“单调分派”的性质仍然保抓,具体表述为如下引理 1,齐备认识注解请参考论文原文附录 A.1。

引理1: 在排列外部性建模下,若拍卖机制的分派端正最大化盼愿假造福利,则对于恣意告白主以偏激它告白主的出价向量,对于出价单调不减,或者称分派端正为单调的。

统一引理 1 和 Myerson 拍卖表面,不错认识注解上述引入排列外部性的 Myerson 拍卖为满足IC、IR料理且最大化平台盼愿收入的最优拍卖机制,齐备推导过程请参考论文原文 2.2 节。

奏凯求解上述最优分派截止需要陈设参竞告白的悉数可能排列截止,再进行选优,陈设过程的蓄意复杂度为,线上场景下,,陈设过程的高复杂度无法满足线上推理实验要求。因此咱们探求将拍卖机制进行参数化,通过数据运转的口头进行学习。为了在端到端学习的过程中满足 IC 料理并保抓优化过程的可微性,类似多物品拍卖的研究责任 RegretNet [6],咱们将机制偏离 IC 要求的进程量化为每个告白主的 ex-post regret,即告白主通过虚报出价不错得回的最大服从增多值:

给订价值分散 中的 条采样,则告白主 的教会 ex-post regret 为

拍卖机制想象问题不错进一步改写成如下料理优化问题:农夫导航大全

生成式拍卖

前文提到,现存的基于深度学习的拍卖机制受限于“先预估后分派”的想象范式,无法感知排列级外部性。咱们建议的生成式拍卖引入了生成器-评估器的基本架构,模子全体架构如图 2 所示。生成器承袭自回想模子,逐坑位感知也曾决策完成的序列信息,生成告白序列。评估器捕捉告白序列中的商品互相影响,对精排阶段的单点 pCTR 统一序列凹凸文信息进行校准,在检察时为生成器提供奖励信号。在线推理时,仅部署生成器,以保证线上推理时延。此外,咱们构建了 PaymentNet 模块,通过优化 ex-post regret 学习最优计费端正。

图2:感知排列外部性的生成式拍卖全体框架1、生成器

阐明表面推导的最优分派状貌,生成器的宗旨为阐明个参竞告白,生成长度为的告白序列,以最大化盼愿假造福利。咱们构建的生成器包括两部分:满足排列不变性(permutation-invariant)的搭伙编码器,以及满足排列同变性(permutation-equivariant)的自回想解码器。排列不变性指的是改变模子输入元素的排列端正不会改变模子输出的截止,排列同变性指的是输入元素的排列端正改变会引起输出截止的排列端正产生调换的改变。前者保证输入模子的参竞告白端正不影响分派截止,后者在自动机制想象 [7-9] 的研究责任中平常利用,[10] 进一步论证了排列同变性不错进步机制的泛化性。

搭伙编码器旨在通过建模参竞搭伙粒度的外部性来增强每个告白的表征。编码器领先通过 self-attention layer 编码告白 embedding 序列:

再经过 sum-pooling 层和 MLP 层得到搭伙粒度凹凸文编码:

解码器使用自回想模子建模长度为的告白序列的搭伙概率分散:

咱们使用 GRU 单位建模参竞告白在坑位的要求概率:,第个 GRU 单位迭代式地界说为:

其中为可学习的参数,恒久非负,确保更高的假造价值得回更大的分派概率,与最大化假造福利的宗旨保抓一致。咱们接下来对在坑位之前分派的告白进行 mask 操作,并基于概率进行采样以决策分派到刻下坑位的告白。访佛次采样过程,得到长度为的告白序列即为最终分派截止。防范到生成器中的 MLP 和 GRU 单位作用在每个 state-ad 对,且编码器满足排列不变性,因此解码器满足排列同变性。

2、评估器

评估器的宗旨为预估分派截止中每个告白的 CTR ,进一步在检察过程中为生成器提供奖励信号。为了复用精排阶段从用户行径序列中提真金不怕火的用户趣味信息,幸免冗余建模,评估器在精排单点 pCTR的基础上,预估排列外部性校准向量,再将二者进行逐元素相乘得到最终预估的 CTR:。模子结构上同期引入了双向 LSTM 和 self-attention 模块提真金不怕火序列凹凸文信息,最终将团员用户 embedding 后的表征送入 MLP 层得到外部性校准向量:

具体齐备细节请参考论文原文。

3、计费模块

防范到第 2 节中表面推导的最优计费端正包括积分项

通过蒙特卡洛采样近似蓄意积分时,每次采样齐需要调用生成器和评估器,在及时推理时的蓄意支出过大。在前文中,咱们将 IC 要求改写为每个告白主的教会 ex-post regret 即是 0,这使得咱们不错通过数据运转的口头构建计费模块学习上述最优计费端正。计费模块输入包括告白分派序列的表征,出价矩阵 ,以及盼愿价值向量,其中暗示生成器输出的告白分派概率,暗示评估器输出的外部性校准后的 CTR。为了满足 IR 要求,计费模子通过 sigmoid 激活函数输出计费比

色无极电影

,再与出价相乘得到最终计费。

4、检察过程

阐明第 2 节中推导的论断,最优分派最大化假造福利,与计费端正无关,因此咱们在检察时将基于生成器-评估器架构的分派求解模块与计费模块的优化进行解耦。

咱们领先使用列表级的告白点击数据检察评估器,交叉熵失掉函数界说为:

其中 暗示用户是否点击列表 中的第 个告白,暗示评估器的外部性校准后的预估 CTR。

在评估器检察敛迹后,咱们冻结其参数,引导生成器检察。类似推选系统重排责任 GRN [11] 的失掉函数想象想路,咱们将奖励函数拆解为两部分。Self-Reward 奏凯形容每个分派的告白带来的假造福利增量,即

External-Reward 形容每个分派的告白带来的外部性影响,即

类似 VCG 拍卖中的旯旮孝敬的主见。二者相加即可得到分派告白的全体奖励函数:

其中暗示排斥告白后的告白序列。终末,咱们使用 Policy Gradient 界说生成器的失掉函数为:

在生成器-评估器架构检察敛迹后,咱们冻结其参数,使用增广拉格朗日方法求解第 2 节终末界说的料理优化问题以优化计费模块,对违背 IC 要求施加刑事株连项,增广拉格朗日函数界说为:

计费模块的优化过程包括以下两个过程的迭代:

(1)更新计费模块的参数

(2)更新拉格朗日乘子

实验

咱们在淘宝展示告白场景的委果数据集上以及线上环境中评估生成式拍卖的有用性。对比的基线方法按照外部性建模的粒度不错分为三类:

无外部性建模:GSP 广义二价拍卖。

搭伙粒度外部性建模:DNA [2];SW-VCG [3]。

排列级外部性建模:基于陈设齐备的 VCG 拍卖;EdgeNet [12];表面推导的最优拍卖机制。

1、离线实验

离线实验使用的检察集和测试集区分包括不同日历立时采样的 50 万条和 10 万条拍卖日记,每次拍卖约有30个告白参竞。咱们探求告白主出价的要求分散区分苦守均匀分散(uniform)和指数分散(exponential),在两种要求下区分进行评估。评估目的包括平台收入目的 RPM(Revenue Per Mille),CTR 以及评估机制 IC 要求的目的

估量告白主通过非委果出价八成得回的服从相对增量。

实验截止如表 1 所示。不错不雅察到跟着外部性建模从不探求外部性到搭伙粒度外部性,再到排列级外部性,三个目的均趋向更优。此外,防范到与基于陈设法齐备的表面最优上界比较,生成式拍卖(CGA)达到了95%的平台收入以及极低的值,标明生成式拍卖不错高效近似表面最优机制。

表1:离线对比实验。目的后的百分比增减量暗示基线方法比较 CGA 的相对值2、在线实验

咱们在展示告白场景进行了线上 A/B 实验,基线为线上使用的 DNA [2] 机制。实验截止标明,生成式拍卖在推理时延仅增多 1.6% 的情况下,平台收入目的 RPM 提高了 3.2%,CTR 进步 1.4%,成交 GMV 进步6.4%,告白主 ROI 进步 3.5%。实验截止标明生成式拍卖带来的收入进步不是由于奏凯举高告白主计费,而是通过感知排列级外部性优化告白分派,齐备更精确的告白触达,反应于 CTR、GMV 以及告白主 ROI 的进步。

总结

本文从告白拍卖机制中的排列级外部性影响启程,冲破“先预估后分派”的想象范式,针对在线告白场景建议了感知排列外部性的生成式拍卖。截止标明,经典的 Myerson 拍卖在移动到排列级外部性的状貌后,仍然保抓其最优性。

基于这一论断,团队想象的生成式拍卖架构将分派和计费模块解耦。在具体齐备上,构建了基于生成器-评估器的自回想生成式结构来优化分派,并将 IC 料理量化为最小化盼愿过后后悔来学习最优支付端正。工业级场景的离在线实验考证了生成式拍卖的有用性。值得防范的是,建议的生成式拍卖框架并不局限于特定的生成式模子。

将来的研究责任将探索引入愈加高效的生成式架构,并在拍卖机制中调理分派来自多渠谈的商品,举例当然截止与告白的和会混排。

对于团队

阿里姆妈展示告白机制计策算法团队,辛苦于于不休优化阿里展示告白技艺体系,运转业务增长,推进技艺抓续蜕变;不休升级工程架构以支抓阿里姆妈展示告白业务隆重&高效迭代,深挖贸易化价值并优化告白主投放成果,孵化蜕变产物和蜕变贸易化模式,优化告白生态健壮性;运抨击制升级,并已迈入 Deep Learning for Mechanisms 时期,团队蜕变责任发表于 KDD、WWW、ICML、CIKM、WSDM、AAMAS、AAAI 等边界有名会议。在此诚笃迎接有ML配景的同学加入!

参考文件

[1] Arpita Ghosh and Mohammad Mahdian. Externalities in online advertising. WWW’08.

[2] Xiangyu Liu, Chuan Yu, Zhilin Zhang, Zhenzhe Zheng, Yu Rong, Hongtao Lv, Da Huo, Yiqing Wang, Dagui Chen, Jian Xu, Fan Wu, Guihai Chen, and Xiaoqiang Zhu. Neural auction: End-to-end learning of auction mechanisms for e-commerce advertising. KDD’21.

[3] Ningyuan Li, Yunxuan Ma, Yang Zhao, Zhijian Duan, Yurong Chen, Zhilin Zhang, Jian Xu, Bo Zheng, and Xiaotie Deng. Learning-Based Ad Auction Design with Externalities: The Framework and A Matching-Based Approach. KDD’23.

[4] Guogang Liao, Xuejian Li, Ze Wang, Fan Yang, Muzhi Guan, Bingqi Zhu, Yongkang Wang, Xingxing Wang, and Dong Wang. 2022. NMA: Neural Multi-slot Auctions with Externalities for Online Advertising. arXiv preprint arXiv:2205.10018 (2022).

[5] Roger B Myerson. 1981. Optimal auction design. Mathematics of operations research 6, 1 (1981), 58–73.

[6] Paul Dütting, Zhe Feng, Harikrishna Narasimhan, David Parkes, and Sai Srivatsa Ravindranath. Optimal auctions through deep learning. ICML’19.

[7] Zhijian Duan, Haoran Sun, Yurong Chen, and Xiaotie Deng. A scalable neural network for dsic affine maximizer auction design. NeurIPS’24.

[8] Dmitry Ivanov, Iskander Safiulin, Igor Filippov, and Ksenia Balabaeva. Optimal-er auctions through attention. NeurIPS’22.

[9] Jad Rahme, Samy Jelassi, Joan Bruna, and S Matthew Weinberg. A permutation-equivariant neural network architecture for auction design. AAAI’21.

[10] Tian Qin, Fengxiang He, Dingfeng Shi, Wenbing Huang, and Dacheng Tao. Benefits of permutation-equivariance in auction mechanisms. NeurIPS’22.

[11] Yufei Feng, Binbin Hu, Yu Gong, Fei Sun, Qingwen Liu, and Wenwu Ou. 2021. GRN: Generative Rerank Network for Context-wise Recommendation. arXiv preprint arXiv:2104.00860 (2021).

[12] Guangyuan Shen, Shengjie Sun, Dehong Gao农夫导航大全, Duanxiao Song, Libin Yang, Zhen Wang, Yongping Shi, and Wei Ning. EdgeNet: Encoder-decoder generative Network for Auction Design in E-commerce Online Advertising. CIKM’23.





Powered by 伦理片在线看 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024