CTR排序模型全解析:从经典到前沿的技术演进

一、线性模型时代:逻辑回归与特征工程

1.1 逻辑回归(LR)的统治地位

作为CTR预估领域的基石模型,LR以简单高效著称。其核心公式为:

  1. σ(w·x + b) = 1 / (1 + e^-(w·x + b))

优势在于可解释性强,训练速度快,适合大规模稀疏特征场景。但依赖人工特征工程,无法自动捕捉特征交互关系。工程实践中常采用:

  • 特征分箱与离散化
  • 交叉特征构造(如用户年龄×商品类别)
  • 正则化防止过拟合(L1/L2)

1.2 GBDT的特征转换革命

GBDT通过集成学习实现自动特征转换,其核心优势在于:

  • 处理非线性关系能力强
  • 自动筛选重要特征组合
  • 对缺失值鲁棒
    典型应用流程为:GBDT生成特征向量→LR模型预测。Facebook 2014年提出的GBDT+LR方案,在Kaggle CTR竞赛中取得显著效果提升。但存在树模型深度限制和难以处理超高维稀疏数据的问题。

二、因子分解机系列:特征交互的数学表达

2.1 FM:二阶交互的矩阵分解

FM模型通过隐向量实现特征交互建模:

  1. ŷ(x) = w0 + Σwi·xi + ΣΣvi·vj·xixj

相比LR,FM能自动学习所有二阶特征组合,参数数量从O(n²)降至O(kn)。工程实现要点:

  • 稀疏矩阵优化存储
  • 并行化计算
  • 负采样加速训练

2.2 FFM:域感知的精细化建模

FFM引入field概念,每个特征在不同field下有独立隐向量:

  1. ŷ(x) = w0 + Σwi·xi + ΣΣvij·xixj

在Criteo数据集上,FFM相比FM有3%-5%的AUC提升。但模型复杂度增加至O(kfn),需注意:

  • 合理划分field(用户域/物品域/上下文域)
  • 隐向量维度k的调优
  • 内存消耗控制

2.3 MLR:分段线性建模

阿里提出的MLR(Mixed Logistic Regression)通过分片线性函数逼近复杂曲面:

  1. ŷ(x) = Σg(x)·σ(w·x + b)

其中g(x)为门控函数,实现自动聚类。在电商场景中,MLR相比FM有2%-3%的点击率提升。关键技术点:

  • 分片数U的选择(通常8-16)
  • 初始化策略优化
  • 梯度消失问题的解决

三、深度学习时代:特征交叉的自动化

3.1 Deep & Wide:记忆与泛化的结合

Google提出的Wide & Deep模型结构:

  1. P(y=1|x) = σ(Wwide·[x,φ(x)] + Wdeep·a(l) + b)

Wide部分处理记忆性特征(如历史行为),Deep部分学习泛化特征。工程实现要点:

  • Wide部分特征选择策略
  • Deep部分嵌入层设计
  • 联合训练优化

3.2 Deep & Cross:高阶交互的显式建模

DCN(Deep & Cross Network)通过交叉层实现特征自动组合:

  1. x(l+1) = x(0)x(l)T·W(l) + b(l) + x(l)

相比DeepFM,DCN能显式构造任意阶特征交互。在显示广告场景中,DCN的AUC提升达1.5%。关键优化方向:

  • 交叉层数控制(通常2-4层)
  • 残差连接设计
  • 计算效率优化

3.3 DeepFM:因子分解机的深度扩展

DeepFM结合FM与DNN的优势:

  1. ŷ = σ(ŷFM + ŷDNN)

FM部分处理低阶交互,DNN部分学习高阶组合。工程实践建议:

  • 嵌入层维度统一(通常10-20)
  • DNN结构调优(3-5层,每层128-512单元)
  • 批归一化加速训练

3.4 XDeepFM:向量级的精细交互

XDeepFM提出CIN(Compressed Interaction Network):

  1. X(k) = Σ H(k-1)i·X(0)

通过向量级交互实现更精细的特征组合。在开放数据集上,XDeepFM相比DeepFM有0.8%-1.2%的AUC提升。实现注意事项:

  • 交互层数控制(通常3-5层)
  • 通道数设计(逐层递减)
  • 内存消耗优化

3.5 PN:路径网络的创新探索

Path Network(PN)通过路径选择机制实现特征交互:

  1. ŷ = σ(ΣpP wp·f(p))

其中P为特征交互路径集合。PN在长尾场景中表现突出,但训练复杂度较高。适用场景建议:

  • 特征空间高度稀疏
  • 需要捕捉远距离依赖
  • 计算资源充足

四、工程实践建议

4.1 模型选型决策树

  1. 数据规模:小数据→LR/GBDT;大数据→深度模型
  2. 特征复杂度:低阶交互→FM;高阶交互→DeepFM/XDeepFM
  3. 实时性要求:高→LR/FM;低→复杂模型
  4. 可解释性需求:高→LR/GBDT;低→深度模型

4.2 特征工程最佳实践

  • 数值特征分箱:等频/等距/最优分箱
  • 类别特征处理:哈希/嵌入/目标编码
  • 时序特征构造:滑动窗口统计/衰减因子
  • 交叉特征生成:笛卡尔积/字段组合

4.3 训练优化技巧

  • 参数初始化:Xavier/He初始化
  • 正则化策略:Dropout/权重衰减
  • 优化器选择:Adam/FTRL
  • 学习率调度:预热/衰减

五、未来发展趋势

  1. 自动化机器学习(AutoML):特征自动生成/模型自动调优
  2. 图神经网络(GNN):社交网络/知识图谱场景
  3. 强化学习:动态环境下的实时决策
  4. 多模态融合:图像/文本/语音特征的联合建模

当前CTR模型正朝着自动化、高效化、可解释化方向发展。建议开发者根据具体业务场景,在模型复杂度与工程可行性之间取得平衡,持续关注学术前沿与工业实践的结合。