Machine Learning Mastery 应用机器学习教程（三）：模型评估与优化实践

在机器学习领域，构建模型仅是第一步，如何科学评估模型性能并持续优化，才是决定模型能否在实际场景中发挥价值的关键。本教程将围绕“模型评估与优化”这一核心主题，系统讲解评估指标选择、交叉验证策略、超参数调优方法，并通过代码示例展示具体实践，帮助开发者从“能用模型”迈向“用好模型”。

一、模型评估：选择正确的“尺子”

1.1 分类任务的评估指标

分类任务中，准确率（Accuracy）是最直观的指标，但其存在明显局限性：当数据分布不均衡时（如99%的样本属于正类），模型可能通过简单预测多数类获得高准确率，却无法有效识别少数类。此时需引入更精细的指标：

精确率（Precision）：预测为正的样本中，实际为正的比例，关注“预测的准确性”。
召回率（Recall）：实际为正的样本中，被正确预测的比例，关注“捕捉能力”。
F1分数：精确率与召回率的调和平均，平衡两者关系。
ROC-AUC：通过绘制真正例率（TPR）与假正例率（FPR）的曲线，计算曲线下面积，反映模型在不同阈值下的综合性能。

代码示例：使用Scikit-learn计算分类报告

from sklearn.metrics import classification_report
y_true = [0, 1, 1, 0, 1]
y_pred = [0, 1, 0, 0, 1]
print(classification_report(y_true, y_pred))

输出结果会包含精确率、召回率、F1分数及支持样本数，帮助快速定位模型在各类别上的表现。

1.2 回归任务的评估指标

回归任务的目标是预测连续值，常用指标包括：

均方误差（MSE）：预测值与真实值差的平方的平均，对异常值敏感。
均方根误差（RMSE）：MSE的平方根，与目标变量同量纲。
平均绝对误差（MAE）：预测值与真实值差的绝对值的平均，对异常值鲁棒。
R²分数：解释模型方差的比例，范围[-∞,1]，越接近1表示模型解释力越强。

代码示例：计算回归指标

from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print("MSE:", mean_squared_error(y_true, y_pred))
print("MAE:", mean_absolute_error(y_true, y_pred))
print("R²:", r2_score(y_true, y_pred))

二、交叉验证：避免“过拟合评估”

传统训练/测试集划分（如70%/30%）存在随机性风险：若数据划分不巧，可能导致评估结果偏离真实性能。交叉验证通过多次划分数据，更稳健地估计模型泛化能力。

2.1 K折交叉验证

将数据划分为K个子集（折），每次用K-1折训练，1折验证，重复K次后取平均。K通常取5或10。

代码示例：Scikit-learn中的K折交叉验证

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
data = load_iris()
X, y = data.data, data.target
model = RandomForestClassifier()
scores = cross_val_score(model, X, y, cv=5, scoring='accuracy')
print("Cross-validation scores:", scores)
print("Mean accuracy:", scores.mean())

2.2 分层K折交叉验证

当数据类别分布不均衡时，普通K折可能导致某些折中类别比例与整体不一致。分层K折通过保证每折中类别比例与整体一致，提升评估可靠性。

代码示例：分层K折交叉验证

from sklearn.model_selection import StratifiedKFold
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
for train_index, test_index in skf.split(X, y):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    # 在此训练并评估模型

三、超参数调优：寻找“最优解”

超参数（如决策树的深度、随机森林的树数量）直接影响模型性能，但无法通过训练学习，需手动或自动调整。

3.1 网格搜索（Grid Search）

定义超参数组合列表，遍历所有组合，选择验证集上性能最优的组合。

代码示例：使用GridSearchCV调优随机森林

from sklearn.model_selection import GridSearchCV
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 5, 10],
    'min_samples_split': [2, 5, 10]
}
grid_search = GridSearchCV(RandomForestClassifier(), param_grid, cv=5, scoring='accuracy')
grid_search.fit(X, y)
print("Best parameters:", grid_search.best_params_)
print("Best score:", grid_search.best_score_)

3.2 随机搜索（Random Search）

当超参数空间较大时，网格搜索计算成本高。随机搜索从参数分布中随机采样组合，通常能更快找到近似最优解。

代码示例：使用RandomizedSearchCV

from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint
param_dist = {
    'n_estimators': randint(50, 200),
    'max_depth': [None] + list(range(5, 20)),
    'min_samples_split': randint(2, 11)
}
random_search = RandomizedSearchCV(RandomForestClassifier(), param_distributions=param_dist, 
                                  n_iter=50, cv=5, scoring='accuracy', random_state=42)
random_search.fit(X, y)
print("Best parameters:", random_search.best_params_)

3.3 贝叶斯优化

更高级的方法如贝叶斯优化，通过构建超参数与性能的代理模型，智能选择下一组待评估的参数，进一步减少评估次数。

工具推荐：Optuna、Hyperopt库支持贝叶斯优化，适合复杂超参数空间。

四、实践建议：从评估到优化的完整流程

明确任务类型：分类或回归，选择对应的评估指标。
处理数据不均衡：分类任务中，若类别分布不均，优先使用F1、ROC-AUC或分层交叉验证。
交叉验证优先：除非数据量极大，否则避免单次训练/测试集划分。
超参数调优策略：
- 小参数空间：网格搜索。
- 大参数空间：随机搜索或贝叶斯优化。
记录实验过程：使用MLflow等工具跟踪每次实验的参数与性能，便于复现与对比。

五、总结与展望

模型评估与优化是机器学习流程中的“质量关卡”，正确的评估指标能真实反映模型能力，科学的交叉验证能避免数据划分导致的偏差，而高效的超参数调优能显著提升模型性能。本教程通过理论讲解与代码实践，为开发者提供了从评估到优化的完整方法论。未来，随着AutoML技术的发展，超参数调优将更加自动化，但理解其底层原理仍对解决复杂问题至关重要。

掌握模型评估与优化，意味着能从“调参工匠”升级为“模型工程师”，在真实业务场景中构建出更可靠、更高效的机器学习系统。