一、线性模型时代:逻辑回归与特征工程
1.1 逻辑回归(LR)的统治地位
作为CTR预估领域的基石模型,LR以简单高效著称。其核心公式为:
σ(w·x + b) = 1 / (1 + e^-(w·x + b))
优势在于可解释性强,训练速度快,适合大规模稀疏特征场景。但依赖人工特征工程,无法自动捕捉特征交互关系。工程实践中常采用:
- 特征分箱与离散化
- 交叉特征构造(如用户年龄×商品类别)
- 正则化防止过拟合(L1/L2)
1.2 GBDT的特征转换革命
GBDT通过集成学习实现自动特征转换,其核心优势在于:
- 处理非线性关系能力强
- 自动筛选重要特征组合
- 对缺失值鲁棒
典型应用流程为:GBDT生成特征向量→LR模型预测。Facebook 2014年提出的GBDT+LR方案,在Kaggle CTR竞赛中取得显著效果提升。但存在树模型深度限制和难以处理超高维稀疏数据的问题。
二、因子分解机系列:特征交互的数学表达
2.1 FM:二阶交互的矩阵分解
FM模型通过隐向量实现特征交互建模:
ŷ(x) = w0 + Σwi·xi + ΣΣvi·vj·xixj
相比LR,FM能自动学习所有二阶特征组合,参数数量从O(n²)降至O(kn)。工程实现要点:
- 稀疏矩阵优化存储
- 并行化计算
- 负采样加速训练
2.2 FFM:域感知的精细化建模
FFM引入field概念,每个特征在不同field下有独立隐向量:
ŷ(x) = w0 + Σwi·xi + ΣΣvij·xixj
在Criteo数据集上,FFM相比FM有3%-5%的AUC提升。但模型复杂度增加至O(kfn),需注意:
- 合理划分field(用户域/物品域/上下文域)
- 隐向量维度k的调优
- 内存消耗控制
2.3 MLR:分段线性建模
阿里提出的MLR(Mixed Logistic Regression)通过分片线性函数逼近复杂曲面:
ŷ(x) = Σg(x)·σ(w·x + b)
其中g(x)为门控函数,实现自动聚类。在电商场景中,MLR相比FM有2%-3%的点击率提升。关键技术点:
- 分片数U的选择(通常8-16)
- 初始化策略优化
- 梯度消失问题的解决
三、深度学习时代:特征交叉的自动化
3.1 Deep & Wide:记忆与泛化的结合
Google提出的Wide & Deep模型结构:
P(y=1|x) = σ(Wwide·[x,φ(x)] + Wdeep·a(l) + b)
Wide部分处理记忆性特征(如历史行为),Deep部分学习泛化特征。工程实现要点:
- Wide部分特征选择策略
- Deep部分嵌入层设计
- 联合训练优化
3.2 Deep & Cross:高阶交互的显式建模
DCN(Deep & Cross Network)通过交叉层实现特征自动组合:
x(l+1) = x(0)x(l)T·W(l) + b(l) + x(l)
相比DeepFM,DCN能显式构造任意阶特征交互。在显示广告场景中,DCN的AUC提升达1.5%。关键优化方向:
- 交叉层数控制(通常2-4层)
- 残差连接设计
- 计算效率优化
3.3 DeepFM:因子分解机的深度扩展
DeepFM结合FM与DNN的优势:
ŷ = σ(ŷFM + ŷDNN)
FM部分处理低阶交互,DNN部分学习高阶组合。工程实践建议:
- 嵌入层维度统一(通常10-20)
- DNN结构调优(3-5层,每层128-512单元)
- 批归一化加速训练
3.4 XDeepFM:向量级的精细交互
XDeepFM提出CIN(Compressed Interaction Network):
X(k) = Σ H(k-1)i·X(0)
通过向量级交互实现更精细的特征组合。在开放数据集上,XDeepFM相比DeepFM有0.8%-1.2%的AUC提升。实现注意事项:
- 交互层数控制(通常3-5层)
- 通道数设计(逐层递减)
- 内存消耗优化
3.5 PN:路径网络的创新探索
Path Network(PN)通过路径选择机制实现特征交互:
ŷ = σ(Σp∈P wp·f(p))
其中P为特征交互路径集合。PN在长尾场景中表现突出,但训练复杂度较高。适用场景建议:
- 特征空间高度稀疏
- 需要捕捉远距离依赖
- 计算资源充足
四、工程实践建议
4.1 模型选型决策树
- 数据规模:小数据→LR/GBDT;大数据→深度模型
- 特征复杂度:低阶交互→FM;高阶交互→DeepFM/XDeepFM
- 实时性要求:高→LR/FM;低→复杂模型
- 可解释性需求:高→LR/GBDT;低→深度模型
4.2 特征工程最佳实践
- 数值特征分箱:等频/等距/最优分箱
- 类别特征处理:哈希/嵌入/目标编码
- 时序特征构造:滑动窗口统计/衰减因子
- 交叉特征生成:笛卡尔积/字段组合
4.3 训练优化技巧
- 参数初始化:Xavier/He初始化
- 正则化策略:Dropout/权重衰减
- 优化器选择:Adam/FTRL
- 学习率调度:预热/衰减
五、未来发展趋势
- 自动化机器学习(AutoML):特征自动生成/模型自动调优
- 图神经网络(GNN):社交网络/知识图谱场景
- 强化学习:动态环境下的实时决策
- 多模态融合:图像/文本/语音特征的联合建模
当前CTR模型正朝着自动化、高效化、可解释化方向发展。建议开发者根据具体业务场景,在模型复杂度与工程可行性之间取得平衡,持续关注学术前沿与工业实践的结合。