GLM原理与代码实例讲解

一、广义线性模型（GLM）的数学基础

1.1 传统线性模型的局限性

经典线性回归模型（OLS）假设因变量服从正态分布，且预测值与误差项独立。但在实际场景中，如二分类问题（是否购买）、计数数据（日访问量）等非连续变量，OLS的假设无法满足。例如预测用户点击率时，因变量取值范围为[0,1]，直接使用线性回归会导致预测值超出有效范围。

1.2 GLM的三大核心组件

GLM通过随机分量、系统分量和连接函数三要素突破传统限制：

随机分量：定义因变量的概率分布，支持二项分布（逻辑回归）、泊松分布（计数数据）、伽马分布（正偏态连续数据）等
系统分量：保持线性预测形式 $X^T\beta$，其中$X$为特征矩阵，$\beta$为参数向量
连接函数：建立系统分量与随机分量期望的映射关系，常用形式包括：
- Logit连接（逻辑回归）：$g(\mu)=\ln(\frac{\mu}{1-\mu})$
- Probit连接（分位数回归）：$g(\mu)=\Phi^{-1}(\mu)$
- 对数连接（泊松回归）：$g(\mu)=\ln(\mu)$

1.3 最大似然估计的优化过程

GLM采用迭代加权最小二乘法（IRLS）进行参数估计。以逻辑回归为例，似然函数为：
 L(β)=∏i=1n[πiyi(1−πi)1−yi] L(\beta)=\prod{i=1}^n [\pi_i^{y_i}(1-\pi_i)^{1-y_i}] 
其中$\pi_i=g^{-1}(X_i^T\beta)$。通过牛顿-拉夫森迭代更新参数：
 β(k+1)=β(k)+(XTWX)−1XT(y−μ) \beta^{(k+1)}=\beta^{(k)}+(X^TWX)^{-1}X^T(y-\mu) 
其中$W$为对角权重矩阵，元素$w{ii}=\pi_i(1-\pi_i)$。

二、Python实现全流程解析

2.1 环境准备与数据加载

import numpy as np
import pandas as pd
import statsmodels.api as sm
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
# 生成模拟二分类数据
X, y = make_classification(n_samples=1000, n_features=5, 
                          n_classes=2, random_state=42)
X = pd.DataFrame(X, columns=[f'x{i}' for i in range(5)])
X['intercept'] = 1  # 添加截距项
# 划分训练集/测试集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42)

2.2 逻辑回归模型构建

# 使用statsmodels构建GLM
logit_model = sm.GLM(
    endog=y_train,          # 因变量
    exog=X_train[['x0', 'x1', 'x2', 'x3', 'x4', 'intercept']],  # 自变量
    family=sm.families.Binomial()  # 指定二项分布
).fit()
# 输出模型摘要
print(logit_model.summary())

输出结果包含：

参数估计值（coef）及其显著性（P>|z|）
对数似然值（-2LL）
AIC/BIC模型选择指标
伪R方（McFadden’s R²）

2.3 模型诊断与结果解释

2.3.1 参数显著性检验

# 获取参数估计与置信区间
params = logit_model.params
conf_int = logit_model.conf_int()
result_df = pd.DataFrame({
    'Coefficient': params,
    '95% Lower': conf_int[:,0],
    '95% Upper': conf_int[:,1]
})
print(result_df)

示例输出：

          Coefficient  95% Lower  95% Upper
x0            0.8234     0.6123     1.0345
x1           -0.4567    -0.7210    -0.1924
intercept     0.1234    -0.0456     0.2924

解释：x0每增加1个单位，对数几率比增加0.8234（Z=6.78, P<0.001）

2.3.2 预测与阈值优化

# 生成预测概率
y_pred_prob = logit_model.predict(X_test[['x0','x1','x2','x3','x4','intercept']])
# 寻找最优分类阈值（通过ROC曲线）
from sklearn.metrics import roc_curve, auc
fpr, tpr, thresholds = roc_curve(y_test, y_pred_prob)
optimal_idx = np.argmax(tpr - fpr)
optimal_threshold = thresholds[optimal_idx]
# 应用最优阈值进行分类
y_pred = (y_pred_prob > optimal_threshold).astype(int)

三、工程化实践建议

3.1 特征工程关键点

分箱处理：对连续变量进行分箱（如年龄分为5组）可提升模型可解释性
交互项引入：通过X['x0_x1'] = X['x0'] * X['x1']添加特征交互
标准化：对正态分布特征进行Z-score标准化（$\frac{x-\mu}{\sigma}$）

3.2 模型调优策略

正则化实现：

from sklearn.linear_model import LogisticRegression
# L2正则化示例
lr_model = LogisticRegression(
 penalty='l2', 
 C=0.1,  # 1/λ，值越小正则化越强
 solver='lbfgs'
).fit(X_train.drop('intercept', axis=1), y_train)

类别不平衡处理：

# 使用statsmodels的权重参数
sample_weights = np.where(y_train==1, 0.7, 0.3)  # 正样本权重更高
weighted_model = sm.GLM(
 y_train, X_train[['x0','x1','x2','x3','x4','intercept']],
 family=sm.families.Binomial(),
 freq_weights=sample_weights  # 频率权重
).fit()

3.3 生产环境部署要点

模型序列化：使用pickle或joblib保存训练好的模型

import joblib
joblib.dump(logit_model, 'glm_model.pkl')
loaded_model = joblib.load('glm_model.pkl')

API封装：通过FastAPI创建预测服务
```python
from fastapi import FastAPI
import pandas as pd

app = FastAPI()

@app.post(“/predict”)
async def predict(features: dict):
df = pd.DataFrame([features])
df[‘intercept’] = 1
prob = loaded_model.predict(df[[‘x0’,’x1’,’x2’,’x3’,’x4’,’intercept’]])[0]
return {“probability”: float(prob)}


## 四、常见问题解决方案
### 4.1 收敛失败处理
当遇到`ConvergenceWarning`时，可尝试：
1. 增加最大迭代次数：`max_iter=1000`
2. 调整优化算法：`solver='newton'`或`'bfgs'`
3. 特征缩放：对大范围变量进行对数变换
### 4.2 完全分离问题
当某个特征能完美预测类别时（如所有正样本的x1>5），会导致参数估计无限大。解决方案：
- 使用Firth的惩罚似然法
- 合并相关特征或移除问题特征
- 增加正则化强度
### 4.3 多重共线性诊断
```python
from statsmodels.stats.outliers_influence import variance_inflation_factor
# 计算VIF
vif_data = pd.DataFrame()
vif_data["feature"] = X_train.columns[:-1]  # 排除intercept
vif_data["VIF"] = [variance_inflation_factor(
    X_train.values, i) for i in range(len(X_train.columns[:-1]))]
print(vif_data[vif_data["VIF"] > 5])  # 输出VIF>5的特征

五、扩展应用场景

5.1 泊松回归实现

# 生成计数数据
np.random.seed(42)
counts = np.random.poisson(lam=np.exp(0.5*X['x0'] + 0.3*X['x1']), size=1000)
# 构建泊松GLM
poisson_model = sm.GLM(
    counts, X[['x0','x1','intercept']],
    family=sm.families.Poisson()
).fit()
print(poisson_model.summary())

5.2 Gamma回归用于偏态连续数据

# 生成右偏连续数据
gamma_data = np.random.gamma(shape=2, scale=np.exp(0.2*X['x0']), size=1000)
# 构建Gamma GLM（对数连接）
gamma_model = sm.GLM(
    gamma_data, X[['x0','intercept']],
    family=sm.families.Gamma(sm.families.links.log())
).fit()
print(gamma_model.summary())

六、总结与最佳实践

模型选择流程：
- 确认因变量类型（连续/二分类/计数）
- 检查分布假设（正态性检验、Q-Q图）
- 选择对应的分布族和连接函数
解释性优先场景：
- 使用statsmodels获取详细统计量
- 生成部分依赖图（PDP）解释特征影响
预测性能优先场景：
- 使用scikit-learn的LogisticRegression
- 结合网格搜索进行超参数调优
持续监控指标：
- 预测准确率/AUC（分类）
- 残差分布（回归）
- 参数稳定性（时间序列数据）

通过系统掌握GLM的原理与实现细节，数据分析师能够更精准地构建符合业务需求的统计模型，同时工程师可实现高效可靠的预测系统部署。建议读者结合实际业务数据，按照本文提供的代码框架进行实践验证，逐步构建对GLM的深度理解。

GLM原理与代码实例：从理论到实践的全面解析