一、线性模型时代：逻辑回归与特征工程

1.1 逻辑回归（LR）的统治地位

作为CTR预估领域的基石模型，LR以简单高效著称。其核心公式为：

σ(w·x + b) = 1 / (1 + e^-(w·x + b))

优势在于可解释性强，训练速度快，适合大规模稀疏特征场景。但依赖人工特征工程，无法自动捕捉特征交互关系。工程实践中常采用：

特征分箱与离散化
交叉特征构造（如用户年龄×商品类别）
正则化防止过拟合（L1/L2）

1.2 GBDT的特征转换革命

GBDT通过集成学习实现自动特征转换，其核心优势在于：

处理非线性关系能力强
自动筛选重要特征组合
对缺失值鲁棒
典型应用流程为：GBDT生成特征向量→LR模型预测。Facebook 2014年提出的GBDT+LR方案，在Kaggle CTR竞赛中取得显著效果提升。但存在树模型深度限制和难以处理超高维稀疏数据的问题。

二、因子分解机系列：特征交互的数学表达

2.1 FM：二阶交互的矩阵分解

FM模型通过隐向量实现特征交互建模：

ŷ(x) = w0 + Σwi·xi + ΣΣvi·vj·xixj

相比LR，FM能自动学习所有二阶特征组合，参数数量从O(n²)降至O(kn)。工程实现要点：

稀疏矩阵优化存储
并行化计算
负采样加速训练

2.2 FFM：域感知的精细化建模

FFM引入field概念，每个特征在不同field下有独立隐向量：

ŷ(x) = w0 + Σwi·xi + ΣΣvij·xixj

在Criteo数据集上，FFM相比FM有3%-5%的AUC提升。但模型复杂度增加至O(kfn)，需注意：

合理划分field（用户域/物品域/上下文域）
隐向量维度k的调优
内存消耗控制

2.3 MLR：分段线性建模

阿里提出的MLR（Mixed Logistic Regression）通过分片线性函数逼近复杂曲面：

ŷ(x) = Σg(x)·σ(w·x + b)

其中g(x)为门控函数，实现自动聚类。在电商场景中，MLR相比FM有2%-3%的点击率提升。关键技术点：

分片数U的选择（通常8-16）
初始化策略优化
梯度消失问题的解决

三、深度学习时代：特征交叉的自动化

3.1 Deep & Wide：记忆与泛化的结合

Google提出的Wide & Deep模型结构：

P(y=1|x) = σ(Wwide·[x,φ(x)] + Wdeep·a(l) + b)

Wide部分处理记忆性特征（如历史行为），Deep部分学习泛化特征。工程实现要点：

Wide部分特征选择策略
Deep部分嵌入层设计
联合训练优化

3.2 Deep & Cross：高阶交互的显式建模

DCN（Deep & Cross Network）通过交叉层实现特征自动组合：

x(l+1) = x(0)x(l)T·W(l) + b(l) + x(l)

相比DeepFM，DCN能显式构造任意阶特征交互。在显示广告场景中，DCN的AUC提升达1.5%。关键优化方向：

交叉层数控制（通常2-4层）
残差连接设计
计算效率优化

3.3 DeepFM：因子分解机的深度扩展

DeepFM结合FM与DNN的优势：

ŷ = σ(ŷFM + ŷDNN)

FM部分处理低阶交互，DNN部分学习高阶组合。工程实践建议：

嵌入层维度统一（通常10-20）
DNN结构调优（3-5层，每层128-512单元）
批归一化加速训练

3.4 XDeepFM：向量级的精细交互

XDeepFM提出CIN（Compressed Interaction Network）：

X(k) = Σ H(k-1)i·X(0)

通过向量级交互实现更精细的特征组合。在开放数据集上，XDeepFM相比DeepFM有0.8%-1.2%的AUC提升。实现注意事项：

交互层数控制（通常3-5层）
通道数设计（逐层递减）
内存消耗优化

3.5 PN：路径网络的创新探索

Path Network（PN）通过路径选择机制实现特征交互：

ŷ = σ(Σp∈P wp·f(p))

其中P为特征交互路径集合。PN在长尾场景中表现突出，但训练复杂度较高。适用场景建议：

特征空间高度稀疏
需要捕捉远距离依赖
计算资源充足

四、工程实践建议

4.1 模型选型决策树

数据规模：小数据→LR/GBDT；大数据→深度模型
特征复杂度：低阶交互→FM；高阶交互→DeepFM/XDeepFM
实时性要求：高→LR/FM；低→复杂模型
可解释性需求：高→LR/GBDT；低→深度模型

4.2 特征工程最佳实践

数值特征分箱：等频/等距/最优分箱
类别特征处理：哈希/嵌入/目标编码
时序特征构造：滑动窗口统计/衰减因子
交叉特征生成：笛卡尔积/字段组合

4.3 训练优化技巧

参数初始化：Xavier/He初始化
正则化策略：Dropout/权重衰减
优化器选择：Adam/FTRL
学习率调度：预热/衰减

五、未来发展趋势

自动化机器学习（AutoML）：特征自动生成/模型自动调优
图神经网络（GNN）：社交网络/知识图谱场景
强化学习：动态环境下的实时决策
多模态融合：图像/文本/语音特征的联合建模

当前CTR模型正朝着自动化、高效化、可解释化方向发展。建议开发者根据具体业务场景，在模型复杂度与工程可行性之间取得平衡，持续关注学术前沿与工业实践的结合。

CTR排序模型全解析：从经典到前沿的技术演进