一、数值特征处理：让数据尺度与分布更友好

数值特征是机器学习模型最基础的数据类型，但原始数据往往存在尺度差异大、分布偏态等问题。科学的数据预处理能显著提升模型收敛速度与泛化能力。

1.1 标准化与归一化技术

多数算法（如SVM、KNN）对特征尺度敏感，不同量纲的特征会主导损失函数优化方向。三种主流缩放方法各有适用场景：

Z-score标准化：通过减去均值并除以标准差，使数据服从标准正态分布。适用于无明显异常值的数值特征，如用户年龄、商品评分。
```
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaled_data = scaler.fit_transform(df[['feature_x']])
```
MinMax归一化：将数据线性映射到[0,1]区间，特别适合神经网络输入层。当数据存在明确边界时效果显著，如像素值、占比类指标。
Robust缩放：基于中位数与四分位距（IQR）计算缩放参数，对异常值鲁棒性极强。在金融风控场景中，收入、交易金额等特征常存在极端值，此时RobustScaler是首选。

⚠️ 关键注意事项：缩放器必须在训练集单独拟合，测试集仅应用变换参数。若在整个数据集上调用fit_transform()，会导致数据泄露，严重高估模型性能。

1.2 分布变换与分箱策略

对于右偏分布（如收入、房价），对数变换能显著改善数据分布形态：

import numpy as np
df['log_income'] = np.log1p(df['income'])  # log1p避免对0取对数

当连续特征需要离散化时，分箱技术能降低噪声影响：

等宽分箱：pd.cut()按固定区间划分，适用于均匀分布数据

等频分箱：pd.qcut()按样本数量划分，对偏态分布更友好

df['age_group'] = pd.qcut(df['age'], q=4, labels=['Q1','Q2','Q3','Q4'])

1.3 特征交互与组合创新

单个特征的表达能力有限，通过数学运算创造新特征往往能揭示更深层关系：

比率特征：如债务收入比、客单价等
差值特征：时间间隔、距离差等

多项式特征：使用PolynomialFeatures生成二次项组合

from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=2, interaction_only=False)
interacted_features = poly.fit_transform(df[['age', 'salary']])

1.4 异常值处理范式

直接删除异常值可能导致信息损失，更推荐使用Winsorization方法：

lower, upper = df['value'].quantile([0.05, 0.95])
df['value_clipped'] = df['value'].clip(lower, upper)

对于时序数据，可结合移动平均与标准差动态检测异常点。

二、类别特征编码：从离散到连续的映射艺术

类别特征无法直接输入模型，需要转化为数值形式。不同编码方式对模型性能影响显著。

2.1 独热编码与目标编码

独热编码：为每个类别创建二进制列，适合低基数特征（类别数<50）。当类别过多时，会引发维度灾难。
```
df_encoded = pd.get_dummies(df, columns=['category'], prefix='cat')
```

目标编码：用类别对应的目标均值替换原始值，特别适合高基数特征。需配合交叉验证防止过拟合：

from category_encoders import TargetEncoder
encoder = TargetEncoder(cols=['high_card_feature'])
encoder.fit(X_train, y_train)
X_train_encoded = encoder.transform(X_train)

2.2 顺序编码与哈希技巧

对于存在自然顺序的类别（如教育程度、用户等级），直接映射为整数即可：

edu_map = {'高中':1, '本科':2, '硕士':3, '博士':4}
df['edu_level'] = df['education'].map(edu_map)

当类别数极大时，哈希编码可有效降低维度：

from sklearn.feature_extraction import FeatureHasher
hasher = FeatureHasher(n_features=10, input_type='string')
hashed_features = hasher.transform(df['text_feature'])

三、特征聚合与嵌入表示

复杂数据结构需要更高阶的特征抽象方法。

3.1 统计聚合特征

对用户行为序列、交易记录等时序数据，可计算统计量作为新特征：

# 计算用户最近7天平均交易金额
df['avg_7d_amount'] = df.groupby('user_id')['amount'].transform(
    lambda x: x.rolling(7).mean().shift(1)
)

3.2 深度嵌入学习

对于文本、图像等非结构化数据，预训练模型可生成高质量嵌入向量：

文本嵌入：使用BERT、Sentence-BERT等模型获取语义表示
图像嵌入：通过ResNet、ViT等卷积网络提取视觉特征
图嵌入：Node2Vec、GraphSAGE等方法学习节点表示

四、自动化特征工程实践

手动特征工程耗时费力，自动化工具链可显著提升效率：

4.1 特征生成库

Featuretools：基于深度特征合成（DFS）自动创建新特征

import featuretools as ft
es = ft.EntitySet(id='data')
es = es.entity_from_dataframe('transactions', dataframe=df, index='id')
feature_matrix, feature_defs = ft.dfs(entityset=es, target_entity='transactions')

TSFresh：专门处理时序数据的特征提取工具

4.2 特征选择自动化

过滤法：基于方差、卡方检验等统计量筛选
包装法：递归特征消除（RFE）动态优化
嵌入法：利用模型系数（如Lasso）或重要性得分（如XGBoost）选择特征

4.3 云原生解决方案

主流云服务商的对象存储服务可与特征平台无缝集成，实现：

特征版本管理
在线特征服务
特征监控与回滚

五、最佳实践与避坑指南

分层处理：对训练集、验证集、测试集分别应用相同的变换逻辑
内存优化：对于高基数类别特征，优先使用稀疏矩阵存储
可解释性：保留关键特征的原始值与变换后值的映射关系
性能监控：持续跟踪特征分布漂移，及时触发重训练流程

特征工程是机器学习项目中投入产出比最高的环节之一。通过系统化的方法论与自动化工具结合，开发者既能保证特征质量，又能显著缩短模型迭代周期。在实际项目中，建议从简单方法入手，逐步引入复杂技术，通过AB测试验证特征有效性，最终构建出鲁棒、高效的特征体系。

机器学习特征工程全解析：从数据预处理到自动化优化