WGCNA分析全流程指南：从原理到在线实践

一、WGCNA技术背景与核心价值

在转录组研究领域，传统差异表达分析往往聚焦于少数显著变化的基因，而忽略了基因间的协同表达模式。加权基因共表达网络分析（Weighted Gene Co-expression Network Analysis, WGCNA）通过构建基因共表达网络，将数千个基因的复杂关系转化为模块化结构，为揭示基因功能协同机制提供了全新视角。

相较于传统方法，WGCNA具有三大显著优势：

全基因组信息利用：整合所有基因的表达数据，避免因阈值设定导致的信息丢失
模块化分析：将数千个基因的关联转换为数十个模块的关联，显著降低多重检验校正压力
生物意义强化：通过软阈值处理构建无标度网络，更符合生物系统的真实特性

典型应用场景包括：

疾病生物标志物发现
关键调控通路鉴定
复杂性状遗传机制解析
药物靶点协同网络构建

二、核心概念与数学基础

1. 共表达网络构建

网络由节点（基因）和边（表达相关性）构成，其特殊性体现在：

加权处理：采用相关性值的幂次运算（abs(cor)^power）强化强关联
软阈值选择：通过pickSoftThreshold函数确定最佳幂值，使网络满足无标度特性
网络类型：
- 无向网络：abs(cor(x,y))^power
- 有向网络：(1+cor(x,y)/2)^power
- 混合网络：正相关保留，负相关置零

# 软阈值选择示例代码
library(WGCNA)
powers = c(1:30)
sft = pickSoftThreshold(datExpr, powerVector=powers, verbose=5)
plot(sft$fitIndices[,1], -sign(sft$fitIndices[,3])*sft$fitIndices[,2],
     xlab="Soft Threshold (power)", ylab="Scale Free Topology Model Fit",
     type="n", main=paste("Scale independence"))

2. 模块识别算法

采用层次聚类结合动态剪切树的方法：

计算基因间拓扑重叠矩阵（TOM）
基于TOM矩阵进行层次聚类
使用动态混合剪切算法识别模块
合并相似度>0.85的模块

关键参数说明：

deepSplit：控制模块分割深度（0-4）
minModuleSize：最小模块基因数（默认30）
mergeCutHeight：模块合并阈值（默认0.25）

三、完整分析流程详解

1. 数据预处理

# 示例数据加载与过滤
load("GeneExpression.RData")
datExpr = t(exprSet)  # 转置使基因在行
gsg = goodSamplesGenes(datExpr, verbose=3)
datExpr = datExpr[gsg$goodGenes, gsg$goodSamples]

需重点关注：

样本质量过滤（去除离群样本）
基因表达量过滤（保留变异系数前25%基因）
批次效应校正（建议使用ComBat算法）

2. 网络构建与模块识别

# 网络构建
net = blockwiseModules(datExpr, 
                      power=6,
                      TOMType="unsigned",
                      minModuleSize=30,
                      reassignThreshold=0,
                      mergeCutHeight=0.25,
                      numericLabels=TRUE,
                      saveTOMs=FALSE,
                      verbose=3)

输出结果包含：

net$colors：模块颜色标签
net$MEs：模块特征基因表达矩阵
net$goodGenes：通过过滤的基因索引

3. 模块-性状关联分析

# 假设已有临床性状数据traitData
moduleTraitCor = cor(net$MEs, traitData, use="p")
moduleTraitPvalue = corPvalueStudent(moduleTraitCor, ncol(datExpr))
# 可视化热图
textMatrix = paste(signif(moduleTraitCor,2), "\n(",
                   signif(moduleTraitPvalue,1), ")", sep="")
par(mar=c(6,8.5,3,3))
labeledHeatmap(Matrix=moduleTraitCor,
               xLabels=colnames(traitData),
               yLabels=names(net$MEs),
               ySymbols=names(net$MEs),
               colorLabels=FALSE,
               colors=blueWhiteRed(50),
               textMatrix=textMatrix,
               setStdMargins=FALSE,
               cex.text=0.5,
               zlim=c(-1,1))

4. 关键基因筛选

通过模块成员度（MM）和基因显著性（GS）双重筛选：

module = "blue"  # 目标模块
genes = colnames(datExpr)
inModule = (net$colors==module)
modGenes = genes[inModule]
# 计算MM和GS
modMEs = net$MEs[, paste("ME", module, sep="")]
geneModuleMembership = cor(datExpr[inModule,], modMEs, use="p")
geneTraitSignificance = cor(datExpr[inModule,], traitData[,1], use="p")
# 筛选标准：MM>0.8且GS>0.2
keyGenes = modGenes[abs(geneModuleMembership)>0.8 & abs(geneTraitSignificance)>0.2]

四、在线分析平台推荐

对于缺乏本地计算资源的用户，可选用以下解决方案：

云原生分析平台：提供交互式Jupyter环境，预装WGCNA及依赖包
可视化工具集：集成网络可视化、模块热图、GO富集分析等模块
自动化流水线：支持从表达矩阵到关键基因的全流程自动化分析

典型操作流程：

上传标准化后的表达矩阵（CSV/TSV格式）
设置分析参数（软阈值、模块大小等）
提交任务并监控运行状态
下载包含网络文件、模块信息、关键基因列表的压缩包

五、最佳实践建议

样本量要求：建议至少15个样本，复杂疾病研究需30+样本
参数优化：软阈值通常在6-12之间，需通过尺度自由拓扑模型验证
结果验证：关键模块需通过qPCR或独立数据集验证
可视化增强：使用Cytoscape进行网络可视化时，建议过滤掉TOM值<0.1的边

通过系统掌握WGCNA分析方法，研究者能够更全面地解读基因调控网络，为疾病机制研究和精准医疗提供有力支持。建议结合具体研究问题，灵活调整分析参数，并重视模块功能的生物学解释。