一、贝叶斯算法：概率驱动的轻量级模型

核心优点

数学基础坚实
贝叶斯算法基于概率论中的贝叶斯定理，通过先验概率与条件概率的联合计算实现分类。例如在文本分类场景中，给定特征词(X)和类别(Y)，其核心公式为：
[
P(Y|X) = \frac{P(X|Y)P(Y)}{P(X)}
]
这种明确的概率解释使其在医疗诊断、垃圾邮件过滤等需要可解释性的领域具有天然优势。
计算效率高
朴素贝叶斯假设特征条件独立，将联合概率计算简化为特征概率的乘积。例如在文本分类中，特征词(X=(x1,x_2,…,x_n))的联合概率可分解为：
[
P(X|Y) = \prod{i=1}^n P(x_i|Y)
]
这种简化使模型训练时间复杂度降至(O(n))，远低于深度神经网络的(O(n^3))级别。
小样本场景适用
在数据量不足时，贝叶斯可通过平滑技术（如拉普拉斯平滑）避免零概率问题。例如在二分类问题中，若某特征在训练集中未出现，可通过添加(\alpha=1)的平滑参数调整概率：
[
P(x_i|Y) = \frac{count(x_i,Y) + \alpha}{count(Y) + \alpha \cdot |V|}
]
其中(|V|)为词汇表大小。

特征独立性假设局限
现实场景中特征往往存在相关性。例如在图像分类中，像素间的空间关系会被朴素贝叶斯忽略，导致模型精度下降。实验表明，在MNIST手写数字识别任务中，朴素贝叶斯的准确率（约82%）显著低于CNN（99%以上）。
先验概率影响结果
当先验概率(P(Y))设置不合理时，模型会出现偏差。例如在疾病诊断中，若某罕见病的先验概率被低估，即使患者症状高度匹配，模型也可能给出阴性预测。
连续特征处理困难
对连续特征需假设其服从特定分布（如高斯分布），但实际数据常偏离假设。例如在房价预测中，房屋面积可能服从对数正态分布，此时需对特征进行变换：
```
import numpy as np
def log_transform(x):
    return np.log(x + 1e-6)  # 避免log(0)
```

可视化解释性强
CART通过递归二分构建树结构，每个节点代表特征划分规则。例如在贷款审批场景中，根节点可能是”收入>50万”，左子树为”是”，右子树为”否”。这种结构使业务人员可直接理解模型决策逻辑。
支持混合特征类型
可同时处理离散特征（如性别）和连续特征（如年龄）。划分标准采用基尼系数：
[
Gini(D) = 1 - \sum_{k=1}^K p_k^2
]
其中(p_k)为第(k)类样本占比。例如在鸢尾花分类中，对”花瓣宽度”特征的划分可计算左右子树的基尼指数，选择使总基尼下降最大的分割点。
无需特征缩放
与SVM等依赖距离度量的算法不同，CART对特征量纲不敏感。例如在房价预测中，”房屋面积”（平方米）和”房间数”（个）可直接用于划分，无需标准化处理。

过拟合风险高
深度过大的树会捕捉数据噪声。例如在包含100个样本的二分类任务中，若不限制树深度，可能生成99个叶节点的复杂树，导致测试集准确率下降。控制方法包括：
- 预剪枝：设置最大深度（如max_depth=5）
- 后剪枝：通过代价复杂度剪枝（如ccp_alpha=0.01）
不稳定性
数据微小变化可能导致树结构剧变。例如在包含10%噪声的数据集中，重复训练可能生成完全不同的树。解决方案包括：
- 使用随机森林集成
- 增加最小样本分割数（如min_samples_split=10）
偏向高基数特征
对取值较多的特征（如ID号）可能过度偏好。例如在用户行为分析中，”用户ID”特征可能被选为根节点，但实际无预测价值。可通过特征重要性评估或限制特征选择数量解决。

核技巧处理非线性
通过核函数将数据映射到高维空间，实现线性可分。常用核函数包括：
- 线性核：(K(x_i,x_j)=x_i^Tx_j)
- RBF核：(K(x_i,x_j)=\exp(-\gamma||x_i-x_j||^2))
  例如在图像分类中，RBF核可将像素特征映射到千维空间，使原本重叠的类别分离。
泛化能力强
最大化间隔的优化目标使模型对未见数据鲁棒。在UCI数据集实验中，SVM在多数任务上的F1分数优于逻辑回归（平均高3.2%）。
稀疏解特性
支持向量仅占训练样本的少数（通常<10%），使预测阶段计算高效。例如在百万级样本的数据集中，预测时仅需计算与数百个支持向量的距离。

训练时间复杂度高
标准SVM训练时间复杂度为(O(n^3))，大规模数据下需使用近似算法（如SMO）。例如在10万样本的数据集中，传统QP求解器需数小时，而SMO可缩短至分钟级。
参数敏感
核函数参数（如RBF核的(\gamma)）和正则化参数(C)需精细调优。例如在MNIST数据集上，(\gamma)从0.001调整到0.1时，准确率可能波动5%。推荐使用网格搜索：
```
from sklearn import svm
param_grid = {'C': [0.1,1,10], 'gamma': [0.001,0.01,0.1]}
grid = GridSearchCV(svm.SVC(), param_grid, cv=5)
grid.fit(X_train, y_train)
```
类别不平衡处理弱
默认使用相同惩罚系数(C)，导致少数类分类效果差。可通过设置class_weight='balanced'自动调整：
```
model = svm.SVC(class_weight='balanced')
```
或在优化目标中为不同类别分配不同权重。

数据规模维度
- 小样本（<1k）：优先贝叶斯（快速启动）
- 中等规模（1k-100k）：CART（可解释性）或线性SVM（高效）
- 大规模（>100k）：线性SVM（SMO优化）或随机森林
特征类型维度
- 纯离散特征：贝叶斯或CART
- 混合特征：CART或核SVM
- 高维稀疏特征（如文本）：线性SVM
业务需求维度
- 需要解释性：CART
- 追求精度：核SVM
- 实时预测：贝叶斯或线性SVM

通过理解三种算法的核心特性与适用场景，开发者可避免”一刀切”的选型误区，构建更符合业务需求的机器学习系统。