引言：模型评估与调优的重要性

在机器学习项目中，构建模型只是第一步。如何评估模型的性能、发现潜在问题并进行针对性优化，才是决定项目成败的关键。本教程将围绕模型评估与调优展开，通过理论讲解与代码实战相结合的方式，帮助读者掌握这一核心技能。

一、模型评估基础：选择合适的评估指标

1.1 分类问题的评估指标

对于分类任务，常用的评估指标包括准确率（Accuracy）、精确率（Precision）、召回率（Recall）和F1分数（F1 Score）。

准确率：正确预测的样本数占总样本数的比例。适用于类别分布均衡的场景。

from sklearn.metrics import accuracy_score
y_true = [0, 1, 1, 0]
y_pred = [0, 1, 0, 0]
print("Accuracy:", accuracy_score(y_true, y_pred))  # 输出: 0.75

精确率与召回率：精确率关注预测为正的样本中实际为正的比例；召回率关注实际为正的样本中被正确预测的比例。适用于类别不平衡的场景。

from sklearn.metrics import precision_score, recall_score
print("Precision:", precision_score(y_true, y_pred))  # 输出: 0.5
print("Recall:", recall_score(y_true, y_pred))      # 输出: 0.5

F1分数：精确率和召回率的调和平均数，综合反映模型性能。

from sklearn.metrics import f1_score
print("F1 Score:", f1_score(y_true, y_pred))  # 输出: 0.5

1.2 回归问题的评估指标

对于回归任务，常用的评估指标包括均方误差（MSE）、均方根误差（RMSE）和平均绝对误差（MAE）。

均方误差（MSE）：预测值与真实值之差的平方的平均值。对异常值敏感。

from sklearn.metrics import mean_squared_error
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print("MSE:", mean_squared_error(y_true, y_pred))  # 输出: 0.375

均方根误差（RMSE）：MSE的平方根，单位与原始数据一致。

import numpy as np
print("RMSE:", np.sqrt(mean_squared_error(y_true, y_pred)))  # 输出: 0.612...

平均绝对误差（MAE）：预测值与真实值之差的绝对值的平均值。对异常值不敏感。

from sklearn.metrics import mean_absolute_error
print("MAE:", mean_absolute_error(y_true, y_pred))  # 输出: 0.5

二、交叉验证：更可靠的模型评估方法

2.1 为什么需要交叉验证？

简单的训练集-测试集划分可能导致评估结果不稳定，尤其是数据量较小时。交叉验证通过多次划分数据集，综合多次评估结果，提供更可靠的模型性能估计。

2.2 K折交叉验证

K折交叉验证将数据集划分为K个子集，每次用K-1个子集训练，1个子集验证，重复K次，最终取平均性能。

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
data = load_iris()
X, y = data.data, data.target
model = RandomForestClassifier()
# 5折交叉验证
scores = cross_val_score(model, X, y, cv=5, scoring='accuracy')
print("Cross-validation scores:", scores)
print("Mean accuracy:", scores.mean())  # 输出: 平均准确率

2.3 分层K折交叉验证

对于类别不平衡的数据集，分层K折交叉验证确保每次划分时各类别的比例与原始数据集一致。

from sklearn.model_selection import StratifiedKFold
skf = StratifiedKFold(n_splits=5, shuffle=True)
for train_index, test_index in skf.split(X, y):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    # 在此训练和评估模型

三、超参数调优：寻找最佳模型配置

3.1 网格搜索（Grid Search）

网格搜索通过遍历所有可能的超参数组合，找到性能最优的配置。

from sklearn.model_selection import GridSearchCV
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 5, 10]
}
grid_search = GridSearchCV(model, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X, y)
print("Best parameters:", grid_search.best_params_)
print("Best score:", grid_search.best_score_)

3.2 随机搜索（Random Search）

随机搜索在超参数空间中随机采样，适用于超参数较多或计算资源有限的情况。

from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint
param_dist = {
    'n_estimators': randint(50, 200),
    'max_depth': [None] + list(range(5, 15))
}
random_search = RandomizedSearchCV(model, param_distributions=param_dist, 
                                  n_iter=20, cv=5, scoring='accuracy')
random_search.fit(X, y)
print("Best parameters:", random_search.best_params_)

3.3 贝叶斯优化（Bayesian Optimization）

贝叶斯优化通过构建超参数与性能之间的概率模型，智能选择下一次尝试的超参数组合，效率高于网格搜索和随机搜索。

# 使用第三方库如scikit-optimize
from skopt import BayesSearchCV
opt = BayesSearchCV(model, param_grid, n_iter=20, cv=5, scoring='accuracy')
opt.fit(X, y)
print("Best parameters:", opt.best_params_)

四、模型调优的实战建议

从简单模型开始：先使用默认参数或简单模型（如线性回归、决策树）建立基准，再逐步复杂化。
优先调优重要超参数：不同模型的关键超参数不同（如随机森林的n_estimators和max_depth），优先调优影响大的参数。
监控过拟合与欠拟合：通过学习曲线观察模型在训练集和验证集上的表现，调整模型复杂度。
结合领域知识：超参数调优不仅是技术问题，结合业务背景选择合适的评估指标和模型类型。

五、总结与展望

模型评估与调优是机器学习项目的核心环节，直接影响模型的泛化能力和实际应用效果。本教程通过系统讲解评估指标、交叉验证方法和超参数调优技术，为读者提供了从模型训练到优化的完整流程。未来，随着自动化机器学习（AutoML）技术的发展，超参数调优将更加高效和智能化，但理解其背后的原理仍对数据科学家至关重要。

通过掌握本教程的内容，读者将能够更自信地应对机器学习项目中的评估与调优挑战，提升模型性能和项目成功率。

Machine Learning Mastery 机器学习入门教程（三）：模型评估与调优实战