竞争风险建模：当死亡成为复发分析的"干扰项

一、竞争风险场景的识别陷阱

在乳腺癌术后随访研究中，研究者发现传统Cox比例风险模型存在显著局限性：当患者因其他原因死亡时，这些病例会被错误标记为”删失数据”，而实际上死亡事件已经阻止了复发事件的发生。这种数据结构导致两个核心问题：

风险累积偏差：死亡患者占比越高，复发风险估计值越低
比例风险假设失效：治疗组与对照组的死亡风险差异会扭曲复发风险比较

某三甲医院肿瘤科的真实案例显示，使用Cox模型得出的复发风险比（HR=0.72）与竞争风险模型（sHR=0.85）存在18%的偏差。这种偏差在老年患者群体（死亡风险>30%）中尤为显著，可能误导临床决策。

二、竞争风险建模技术体系

1. 模型选择矩阵

模型类型	适用场景	输出指标	计算复杂度
Fine-Gray	累积发生率比较	sHR（亚分布HR）	中等
Cause-Specific	病因特异性风险分析	cHR（条件HR）	高
Aalen-Johansen	多状态转移概率估计	状态转移矩阵	复杂

对于临床复发分析，Fine-Gray模型因其直接估计累积发生率（CIF）的特性成为首选。该模型通过构建伪观测值（pseudo-observations）解决死亡事件的竞争性问题。

2. 数据预处理关键步骤

# 事件类型编码规范
df$event <- ifelse(df$status == "recurrence", 1,
                  ifelse(df$status == "death", 2, 0))
# 时间变量处理（需确保无负值）
df$time <- pmax(0, df$followup_days)
# 关键变量检查
table(df$event, useNA = "always")  # 检查缺失值
summary(df$time)                   # 检查时间分布

3. 倾向性评分加权实现

IPTW（Inverse Probability of Treatment Weighting）技术通过模拟随机对照试验（RCT）条件，消除观察性研究中的混杂偏倚。具体实现分为三步：

步骤1：构建倾向性评分模型

ps_model <- glm(treatment ~ age + stage + ER_status + PR_status,
                data = df, family = binomial(link = "logit"))
df$ps <- predict(ps_model, type = "response")

步骤2：计算稳定化权重

# 计算边际概率
p_treated <- mean(df$treatment == 1)
p_control <- 1 - p_treated
# 生成稳定化权重
df$weight <- ifelse(df$treatment == 1, 
                   p_treated / df$ps, 
                   p_control / (1 - df$ps))

步骤3：加权数据验证

# 检查协变量平衡
library(cobalt)
bal.tab(treatment ~ age + stage + ER_status + PR_status,
        data = df, weights = "weight")

三、Fine-Gray模型实施流程

1. 模型构建与验证

library(cmprsk)
# 构建竞争风险模型
cif_model <- crr(ftime = df$time, 
                 fstatus = df$event,
                 cov1 = model.matrix(~ treatment + age + stage),
                 failcode = 1,  # 复发事件编码
                 cencode = 0,    # 删失事件编码
                 weight = df$weight)
# 模型诊断
summary(cif_model)

2. 结果解读要点

sHR解释：sHR=0.8表示治疗组复发累积发生率比对照组低20%
基线风险：需结合CIF曲线观察绝对风险差异
时间依赖性：建议绘制sHR随时间变化曲线

# 绘制累积发生率曲线
library(mstate)
# 创建状态转移矩阵
tmat <- transMat(list(c(2,3), c(3), c()))
# 估计CIF
cif_est <- probtrans(cif_model, predt = 0)[[1]]

四、高级应用技巧

1. 时间依赖性协变量处理

对于激素治疗等时间依赖性变量，可采用分段建模或扩展Cox模型：

# 创建时间依赖性变量
df$time_dep <- df$hormone_therapy * (df$time > 180)  # 6个月后开始治疗

2. 模型性能评估

推荐使用Brier得分和C-index的竞争风险版本：

# 计算预测误差
library(riskRegression)
score_obj <- Score(list("Fine-Gray" = cif_model),
                   formula = Hist(time, event) ~ 1,
                   data = df,
                   metrics = c("brier", "auc"))

五、实践中的常见误区

事件编码错误：将死亡事件错误归类为删失数据
权重截断缺失：未对极端权重进行截断处理（建议截断点设为1%和99%分位数）
模型假设检验忽视：未验证比例亚分布风险假设
结果报告不完整：缺少基线风险描述和敏感性分析

某研究团队在应用竞争风险模型后，发现传统Cox模型高估了靶向治疗的复发风险降低幅度达34%。这提示在存在显著竞争风险的临床场景中，必须采用专门的建模方法才能获得可靠结论。

通过系统掌握竞争风险建模技术，临床研究人员可以更准确地评估治疗措施的真实效果，特别是在老年患者群体和多种并发症共存的临床场景中。建议结合R语言的cmprsk、survival和cobalt等包构建完整分析流程，并通过模拟研究验证模型稳健性。