从BERT到GPT：解密Transformer模型的核心架构

一、Transformer模型：从NLP新范式到BERT/GPT的基石

自然语言处理（NLP）领域的发展经历了从统计模型到深度神经网络的跨越，而Transformer模型的出现彻底改变了这一领域的技术路径。相较于传统的循环神经网络（RNN）和卷积神经网络（CNN），Transformer通过自注意力机制（Self-Attention）和并行化计算，解决了长序列依赖和训练效率低下的核心问题，成为BERT、GPT等主流预训练模型的基础架构。

1.1 为什么需要Transformer？

传统RNN模型在处理长序列时存在两大痛点：一是梯度消失或爆炸问题导致远距离信息丢失；二是顺序计算模式限制了并行化能力，训练效率低下。CNN虽能通过局部窗口捕捉特征，但对全局依赖的建模能力较弱。Transformer通过引入自注意力机制，允许模型在计算每个位置输出时直接关注序列中所有位置的信息，同时通过并行计算显著提升训练速度。

二、Transformer核心架构解析

Transformer模型采用经典的编码器-解码器（Encoder-Decoder）结构，但BERT和GPT分别对其进行了简化与适配。以下从原始架构出发，逐步拆解其核心组件。

2.1 编码器与解码器：分工与协作

原始Transformer的编码器负责将输入序列映射为隐藏表示，解码器则根据编码器的输出和已生成的部分序列生成目标输出。两者的核心差异在于：

编码器：包含多层相同的结构，每层由多头自注意力子层和前馈神经网络子层组成，并通过残差连接和层归一化稳定训练。
解码器：在编码器的基础上增加了掩码多头自注意力子层，防止模型在生成时“看到”未来的信息。

示例代码（简化版编码器层）：

import torch
import torch.nn as nn
class EncoderLayer(nn.Module):
    def __init__(self, d_model, nhead, dim_feedforward=2048):
        super().__init__()
        self.self_attn = nn.MultiheadAttention(d_model, nhead)
        self.linear1 = nn.Linear(d_model, dim_feedforward)
        self.linear2 = nn.Linear(dim_feedforward, d_model)
        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)
        self.dropout = nn.Dropout(0.1)
    def forward(self, src, src_mask=None):
        # 多头自注意力
        src2, attn_weights = self.self_attn(src, src, src, attn_mask=src_mask)
        src = src + self.dropout(src2)
        src = self.norm1(src)
        # 前馈网络
        src2 = self.linear2(self.dropout(torch.relu(self.linear1(src))))
        src = src + self.dropout(src2)
        src = self.norm2(src)
        return src

2.2 自注意力机制：动态权重分配

自注意力机制的核心是计算输入序列中每个位置与其他位置的关联权重。具体步骤如下：

生成查询（Q）、键（K）、值（V）：通过线性变换将输入序列映射为三个矩阵。
计算注意力分数：QK^T / sqrt(d_k)，其中d_k是键的维度，缩放因子防止点积过大导致梯度消失。
应用Softmax：将分数转换为概率分布，作为值的权重。
加权求和：Attention(Q, K, V) = softmax(QK^T / sqrt(d_k))V。

多头自注意力通过并行多个注意力头，允许模型从不同子空间捕捉信息，增强表达能力。

2.3 位置编码：弥补序列顺序缺失

由于Transformer没有递归结构，需通过位置编码（Positional Encoding）显式注入序列顺序信息。原始论文采用正弦和余弦函数的组合：

def positional_encoding(max_len, d_model):
    position = torch.arange(max_len).unsqueeze(1)
    div_term = torch.exp(torch.arange(0, d_model, 2) * -(math.log(10000.0) / d_model))
    pe = torch.zeros(max_len, d_model)
    pe[:, 0::2] = torch.sin(position * div_term)
    pe[:, 1::2] = torch.cos(position * div_term)
    return pe

这种编码方式允许模型学习到相对位置信息，且不同位置的编码具有线性可加性。

三、BERT与GPT：Transformer的差异化应用

BERT和GPT均基于Transformer，但通过调整架构和训练目标，分别实现了双向上下文建模和自回归生成的能力。

3.1 BERT：双向编码器的深度融合

BERT仅使用Transformer的编码器部分，通过掩码语言模型（MLM）和下一句预测（NSP）任务，捕捉双向上下文信息。其架构特点包括：

输入嵌入：词嵌入 + 段落嵌入 + 位置嵌入。
深层编码器：通常12层或24层，每层多头注意力头数较多（如12头）。
双向注意力：每个位置的输出可关注左右两侧的信息。

适用场景：需要理解全局上下文的任务，如问答、文本分类。

3.2 GPT：自回归解码器的生成艺术

GPT系列（如GPT-2、GPT-3）仅使用Transformer的解码器部分，通过自回归生成逐个预测下一个词。其架构调整包括：

掩码多头注意力：在自注意力中屏蔽未来位置，防止信息泄露。
单向注意力流：每个位置的输出仅依赖左侧已生成的词。
浅层解码器：早期版本层数较少（如12层），但参数规模极大。

适用场景：文本生成、对话系统等需要连贯输出的任务。

四、架构设计启示与最佳实践

4.1 模型选择指南

双向理解需求：选择BERT类模型（如编码器结构），适用于需要全局上下文的任务。
生成能力需求：选择GPT类模型（如解码器结构），适用于长文本生成。
计算资源限制：优先使用浅层模型或蒸馏版本，平衡性能与效率。

4.2 性能优化技巧

注意力头裁剪：减少低效注意力头的数量，提升推理速度。
混合精度训练：使用FP16/FP32混合精度，加速训练并降低显存占用。
分布式并行：采用张量并行或流水线并行，处理超大规模模型。

4.3 避免的常见误区

位置编码滥用：在短序列任务中，可尝试可学习的位置嵌入替代固定编码。
过度依赖预训练：针对特定领域（如医疗、法律），需在预训练模型基础上进行微调。
忽视解码策略：在生成任务中，需调整温度、Top-k采样等参数控制输出多样性。

五、未来展望：Transformer的演进方向

随着模型规模的扩大，Transformer面临计算效率与可解释性的双重挑战。当前研究热点包括：

稀疏注意力：通过局部窗口或块状注意力降低计算复杂度。
高效Transformer变体：如Linformer、Performer，通过线性近似减少内存占用。
多模态融合：结合视觉、语音等模态，构建通用人工智能框架。

从BERT到GPT，Transformer模型通过灵活的架构设计，重新定义了NLP的技术边界。理解其原始架构不仅有助于优化现有模型，更为未来创新提供了坚实的基础。开发者可根据任务需求，在编码器、解码器或混合架构中选择最优方案，并结合性能优化技巧，实现高效、精准的自然语言处理应用。