☰

KDD'25 | 生成式拍賣：感知排列外部性的整頁優化機制

從“先預估後分配”的判別式方法，到直接面向最終拍賣結果的生成式方法，生成式模型能否爲在線廣告的拍賣機制優化帶來持續增量？

本文介紹阿里媽媽展示廣告機制策略團隊在 AIGA（AI-Generated Auction）方向的前沿探索-生成式拍賣研究工作。

基於該項工作整理的論文已被KDD’25 Research Track接收。

摘要

廣告拍賣機制設計作爲在線廣告系統的重要一環，在持續優化廣告主和平臺收益方面起着至關重要的作用。傳統的廣義二價拍賣（GSP）等拍賣機制依賴於點擊率分離假設（將廣告點擊率拆分爲廣告自身質量分和廣告位曝光權重的乘積），忽略了頁面中同時展示的其它商品的影響，即外部性影響。

近年來，基於深度學習的拍賣機制顯著增強了對高維上下文特徵的編碼能力，但是現有方法仍受限於“先預估後分配”的設計範式。這種範式只能建模參競廣告集合內的外部性，無法捕捉最終分配結果的整頁上下文信息（即排列外部性），因此難以收斂到全局最優解。本文系統分析了在排列外部性影響下的最優拍賣機制，在理論最優解的基礎上，研究團隊提出了首個使用生成式模型建模排列外部性的廣告拍賣機制-生成式拍賣（Contextual Generative Auction, CGA）。

該框架通過自迴歸模型生成廣告分配結果，並將激勵兼容（Incentive Compatibility, IC）條件量化爲最小化事後後悔（ex-post regret），實現端到端學習最優計費規則。大規模離線實驗和在線 A/B 實驗表明 CGA 能顯著提升平臺收入等關鍵指標，同時有效逼近理論最優拍賣的結果。

論文：Contextual Generative Auction with Permutation-level Externalities for Online Advertising作者：Ruitao Zhu, Yangsu Liu, Dagui Chen, Zhenjia Ma, Chufeng Shi, Zhenzhe Zheng, Jie Zhang, Jian Xu, Bo Zheng, Fan Wu下載：https://arxiv.org/abs/2412.11544

引言

在線廣告系統的最優拍賣機制旨在最大化平臺期望收入，同時滿足經濟學性質，包括激勵兼容和個體理性（Individual Rationality, IR），並且需要滿足系統在線部署的計算時延要求。IC 條件要求廣告主真實報價最大化其自身效用，IR條件要求廣告主的效用非負。

在典型的點擊計費（Cost-per-Click, CPC）多坑廣告場景下，廣告拍賣機制的效果依賴於對廣告點擊率（CTR）的預估準度。廣泛使用的 GSP 等機制使用精排階段的單點預估 CTR，忽略了頁面展示的其它商品的影響。而實際場景中，用戶瀏覽的頁面包括多個商品，用戶在決策前通常會對不同商品進行比較，因此同時曝光的其它商品會對目標廣告的 CTR 產生影響，稱爲“外部性” [1]。

基於深度學習的拍賣機制，如 Deep Neural Auction（DNA [2]）和 Score Weighted VCG（SW-VCG [3]）等工作考慮使用深度網絡刻畫外部性影響以提升平臺收入。然而無論是 DNA 採用的先預估廣告 rankscore 再進行排序，還是 SW-VCG 使用的先預估單調性分數再求解二部圖最大匹配，這些方法本質上都受到“先預估後分配”（allocation-after-prediction）範式的侷限，預估時的上下文信息與分配後的最終上下文信息不一致，因此模型只能捕捉到粗粒度的廣告候選集層面的外部性。另一方面，Neural Multi-slot Auction（NMA [4]）等機制採用類似 VCG 拍賣的方式，遍歷所有可能的排列結果以求解最優分配，但是極高的計算複雜度使其難以應用於在線場景。

根據 Myerson 拍賣理論 [5]，拍賣機制的 IC 條件要求廣告主獲得的期望價值關於其出價滿足非遞減關係。大多數現有方法通過保證排序公式中出價的權重爲正，使得廣告主提高出價能獲得相同或更前置的廣告位。但是在排列外部性的影響下，即使廣告候選集保持不變，將廣告分配到的坑位前置反而可能導致其期望價值下降。圖 1 給出了不同廣告的分坑位 [點擊率 * 曝光率]（表示 CPC 機制下的廣告主期望價值）的實驗數據，二者的關係並不滿足單調性。因此，在排列外部性影響下，如何設計滿足激勵兼容條件的分配規則是一個非平凡的問題。

△圖1：廣告分坑位 [點擊率 * 曝光率]

本文旨在探索在排列外部性影響下，滿足 IC 和 IR 約束的收入最大化廣告拍賣機制的基本形式和高效實現。我們首先給出系統性的理論分析，證明最優解保留 Myerson 最優拍賣的基本形式，即分配規則和計費規則可以進行解耦。在理論最優解的基礎上，引入經典的生成器-評估器（Generator-Evaluator）架構，構建感知排列外部性的生成式拍賣。最後，進行工業數據集上的離在線實驗，在多維度指標上對比現有的拍賣機制研究工作。

問題建模與理論分析

在線廣告場景可以抽象成一個典型的多坑拍賣問題。對於每條用戶請求，由

個廣告主（可以是手動調整出價或者自動出價代理）對個廣告位進行出價。廣告主根據自身的私有估值提交出價 , 其中服從價值分佈。給定出價向量, 用戶特徵向量以及所有參競廣告的特徵向量，平臺的拍賣機制決定分配方案以及廣告主的計費，其中表示廣告分配到廣告位

廣告拍賣中的外部性指的是競勝廣告主的效用會受到其它競勝廣告的影響 [1]。對於 CPC 多坑拍賣，外部性影響主要反映在廣告 CTR 上。我們用

表示任意感知排列外部性的 CTR 模型，廣告的 CTR 可以表示爲，可以簡化表示爲

在上述排列外部性的拍賣機制建模下，廣告主

的期望效用爲

拍賣機制的激勵兼容（IC）條件要求真實報價

最大化其期望效用

，個體理性（IR）條件則要求廣告主效用非負。廣告拍賣機制目標爲最大化平臺期望收入

且滿足IC和IR約束。

求解收入最大化機制的直觀想法是遵循經典的 Myerson 拍賣，我們將排列外部性引入 Myerson 拍賣，可以寫成如下形式，其中

表示經過 iron 操作後的虛擬價值函數（確保函數單調性）：

需要注意的是，由於排列外部性的引入，在最終分配結果中其它廣告的影響下，廣告主提高出價不一定會提高最終的 CTR，因此 Myerson 理論中的“單調分配”性質在排列外部性影響下是否成立需要重新論證。我們理論證明了上述“單調分配”的性質仍然保持，具體表述爲如下引理 1，完整證明請參考論文原文附錄 A.1。

引理1:在排列外部性建模下，若拍賣機制的分配規則

最大化期望虛擬福利，則對於任意廣告主以及其它廣告主的出價向量，關於出價單調不減，或者稱分配規則

爲單調的。

結合引理 1 和 Myerson 拍賣理論，可以證明上述引入排列外部性的 Myerson 拍賣爲滿足IC、IR約束且最大化平臺期望收入的最優拍賣機制，完整推導過程請參考論文原文 2.2 節。

直接求解上述最優分配結果需要枚舉參競廣告的所有可能排列結果，再進行選優，枚舉過程的計算複雜度爲

，線上場景下,，枚舉過程的高複雜度無法滿足線上推理實驗要求。因此我們考慮將拍賣機制進行參數化，通過數據驅動的方式進行學習。爲了在端到端學習的過程中滿足 IC 約束並保持優化過程的可微性，類似多物品拍賣的研究工作 RegretNet [6]，我們將機制偏離 IC 條件的程度量化爲每個廣告主的 ex-post regret，即廣告主通過虛報出價

可以獲得的最大效用增加值：

給定價值分佈

中的條採樣，則廣告主

的經驗 ex-post regret 爲

拍賣機制設計問題可以進一步改寫成如下約束優化問題：

生成式拍賣

前文提到，現有的基於深度學習的拍賣機制受限於“先預估後分配”的設計範式，無法感知排列級外部性。我們提出的生成式拍賣引入了生成器-評估器的基本架構，模型整體架構如圖 2 所示。生成器採用自迴歸模型，逐坑位感知已經決策完成的序列信息，生成廣告序列。評估器捕捉廣告序列中的商品相互影響，對精排階段的單點 pCTR 結合序列上下文信息進行校準，在訓練時爲生成器提供獎勵信號。在線推理時，僅部署生成器，以保證線上推理時延。此外，我們構建了 PaymentNet 模塊，通過優化 ex-post regret 學習最優計費規則。

△圖2：感知排列外部性的生成式拍賣整體框架

1、生成器

根據理論推導的最優分配形式，生成器的目標爲根據

個參競廣告，生成長度爲的廣告序列

，以最大化期望虛擬福利。我們構建的生成器包括兩部分：滿足排列不變性（permutation-invariant）的集合編碼器，以及滿足排列同變性（permutation-equivariant）的自迴歸解碼器。排列不變性指的是改變模型輸入元素的排列順序不會改變模型輸出的結果，排列同變性指的是輸入元素的排列順序改變會引起輸出結果的排列順序產生相同的改變。前者保證輸入模型的參競廣告順序不影響分配結果，後者在自動機制設計 [7-9] 的研究工作中廣泛應用，[10] 進一步論證了排列同變性可以提升機制的泛化性。

集合編碼器旨在通過建模參競集合粒度的外部性來增強每個廣告的表徵。編碼器首先通過 self-attention layer 編碼廣告 embedding 序列：

再經過 sum-pooling 層和 MLP 層得到集合粒度上下文編碼：

解碼器使用自迴歸模型建模長度爲

的廣告序列的聯合概率分佈：

我們使用 GRU 單元建模參競廣告在坑位的條件概率：，第

個 GRU 單元迭代式地定義爲：

其中

爲可學習的參數，始終非負，確保更高的虛擬價值獲得更大的分配概率，與最大化虛擬福利的目標保持一致。我們接下來對在坑位之前分配的廣告進行 mask 操作，並基於概率進行採樣以決策分配到當前坑位的廣告。重複次採樣過程，得到長度爲

的廣告序列即爲最終分配結果。注意到生成器中的 MLP 和 GRU 單元作用在每個 state-ad 對，且編碼器滿足排列不變性，因此解碼器滿足排列同變性。

2、評估器

評估器的目標爲預估分配結果

中每個廣告的 CTR ，進一步在訓練過程中爲生成器提供獎勵信號。爲了複用精排階段從用戶行爲序列中提取的用戶興趣信息，避免冗餘建模，評估器在精排單點 pCTR的基礎上，預估排列外部性校準向量，再將二者進行逐元素相乘得到最終預估的 CTR：

。模型結構上同時引入了雙向 LSTM 和 self-attention 模塊提取序列上下文信息，最終將聚合用戶 embedding 後的表徵送入 MLP 層得到外部性校準向量：

具體實現細節請參考論文原文。

3、計費模塊

注意到第 2 節中理論推導的最優計費規則包括積分項

通過蒙特卡洛採樣近似計算積分時，每次採樣都需要調用生成器

和評估器，在實時推理時的計算開銷過大。在前文中，我們將 IC 條件改寫爲每個廣告主的經驗 ex-post regret 等於 0，這使得我們可以通過數據驅動的方式構建計費模塊學習上述最優計費規則。計費模塊輸入包括廣告分配序列的表徵，出價矩陣，以及期望價值向量，其中表示生成器輸出的廣告分配概率，表示評估器輸出的外部性校準後的 CTR。爲了滿足 IR 條件，計費模型通過 sigmoid 激活函數輸出計費比

，再與出價相乘得到最終計費

4、訓練流程

根據第 2 節中推導的結論，最優分配最大化虛擬福利，與計費規則無關，因此我們在訓練時將基於生成器-評估器架構的分配求解模塊與計費模塊的優化進行解耦。

我們首先使用列表級的廣告點擊數據訓練評估器，交叉熵損失函數定義爲：

其中

表示用戶是否點擊列表中的第個廣告，

表示評估器的外部性校準後的預估 CTR。

在評估器訓練收斂後，我們凍結其參數，指導生成器訓練。類似推薦系統重排工作 GRN [11] 的損失函數設計思路，我們將獎勵函數拆解爲兩部分。Self-Reward 直接刻畫每個分配的廣告帶來的虛擬福利增量，即

External-Reward 刻畫每個分配的廣告帶來的外部性影響，即

類似 VCG 拍賣中的邊際貢獻的概念。二者相加即可得到分配廣告

的整體獎勵函數：

其中

表示排除廣告

後的廣告序列。最後，我們使用 Policy Gradient 定義生成器的損失函數爲：

在生成器-評估器架構訓練收斂後，我們凍結其參數，使用增廣拉格朗日方法求解第 2 節最後定義的約束優化問題以優化計費模塊，對違反 IC 條件施加懲罰項，增廣拉格朗日函數定義爲：

計費模塊的優化過程包括以下兩個過程的迭代：

（1）更新計費模塊的參數

（2）更新拉格朗日乘子

實驗

我們在淘寶展示廣告場景的真實數據集上以及線上環境中評估生成式拍賣的有效性。對比的基線方法按照外部性建模的粒度可以分爲三類：

1、離線實驗

離線實驗使用的訓練集和測試集分別包括不同日期隨機採樣的 50 萬條和 10 萬條拍賣日誌，每次拍賣約有30個廣告參競。我們考慮廣告主出價的條件分佈分別服從均勻分佈（uniform）和指數分佈（exponential），在兩種條件下分別進行評估。評估指標包括平臺收入指標 RPM（Revenue Per Mille），CTR 以及評估機制 IC 條件的指標

衡量廣告主通過非真實出價能夠獲得的效用相對增量。

實驗結果如表 1 所示。可以觀察到隨着外部性建模從不考慮外部性到集合粒度外部性，再到排列級外部性，三個指標均趨向更優。此外，注意到與基於枚舉法實現的理論最優上界相比，生成式拍賣（CGA）達到了95%的平臺收入以及極低的

值，表明生成式拍賣可以高效近似理論最優機制。

△表1：離線對比實驗。指標後的百分比增減量表示基線方法相比 CGA 的相對值

2、在線實驗

我們在展示廣告場景進行了線上 A/B 實驗，基線爲線上使用的 DNA [2] 機制。實驗結果表明，生成式拍賣在推理時延僅增加 1.6% 的情況下，平臺收入指標 RPM 提高了 3.2%，CTR 提升 1.4%，成交 GMV 提升6.4%，廣告主 ROI 提升 3.5%。實驗結果表明生成式拍賣帶來的收入提升不是由於直接擡高廣告主計費，而是通過感知排列級外部性優化廣告分配，實現更精準的廣告觸達，反映於 CTR、GMV 以及廣告主 ROI 的提升。

總結

本文從廣告拍賣機制中的排列級外部性影響出發，打破“先預估後分配”的設計範式，針對在線廣告場景提出了感知排列外部性的生成式拍賣。結果表明，經典的 Myerson 拍賣在遷移到排列級外部性的形式後，仍然保持其最優性。

基於這一結論，團隊設計的生成式拍賣架構將分配和計費模塊解耦。在具體實現上，構建了基於生成器-評估器的自迴歸生成式結構來優化分配，並將 IC 約束量化爲最小化期望事後後悔來學習最優支付規則。工業級場景的離在線實驗驗證了生成式拍賣的有效性。值得注意的是，提出的生成式拍賣框架並不侷限於特定的生成式模型。

未來的研究工作將探索引入更加高效的生成式架構，並在拍賣機制中統一分配來自多渠道的商品，例如自然結果與廣告的融合混排。

關於團隊

阿里媽媽展示廣告機制策略算法團隊，致力於不斷優化阿里展示廣告技術體系，驅動業務增長，推動技術持續創新；不斷升級工程架構以支撐阿里媽媽展示廣告業務穩健&高效迭代，深挖商業化價值並優化廣告主投放效果，孵化創新產品和創新商業化模式，優化廣告生態健壯性；驅動機制升級，並已邁入 Deep Learning for Mechanisms 時代，團隊創新工作發表於 KDD、WWW、ICML、CIKM、WSDM、AAMAS、AAAI 等領域知名會議。在此真誠歡迎有ML背景的同學加入！

KDD'25 | 生成式拍賣：感知排列外部性的整頁優化機制

相關資訊