NLP自然语言处理进阶：序列建模与注意力机制解析

一、序列建模的挑战与RNN的局限性

自然语言处理的核心任务之一是处理序列数据（如句子、段落），其本质是建模时序依赖关系。传统方法如N-gram模型虽能捕捉局部上下文，但存在两个关键缺陷：参数空间爆炸与长距离依赖丢失。例如，在预测”The cat sat on the __”时，N-gram可能依赖前3个词，但无法关联到更远的”cat”与”sat”的语义关联。

循环神经网络（RNN）通过引入隐藏状态循环传递解决了部分问题，其核心公式为：

# 简化RNN前向传播示例
def rnn_forward(x, h_prev, W_xh, W_hh, b):
    h_current = tanh(np.dot(W_xh, x) + np.dot(W_hh, h_prev) + b)
    return h_current

然而，RNN的梯度消失/爆炸问题（尤其是长序列训练时）限制了其实际应用。实验表明，当序列长度超过20时，RNN的梯度会指数级衰减，导致无法学习长期依赖。

二、LSTM与GRU：改进的序列单元设计

为解决RNN的梯度问题，LSTM（长短期记忆网络）通过引入门控机制实现了更精细的信息流控制。其核心结构包含三个门：

输入门：决定新信息是否加入记忆单元
遗忘门：控制旧记忆的保留比例
输出门：调节当前输出的可见信息

# LSTM单元简化实现
def lstm_forward(x, h_prev, c_prev, Wf, Wi, Wo, Wc):
    ft = sigmoid(np.dot(Wf, [h_prev, x]))  # 遗忘门
    it = sigmoid(np.dot(Wi, [h_prev, x]))  # 输入门
    ot = sigmoid(np.dot(Wo, [h_prev, x]))  # 输出门
    ct_tilde = tanh(np.dot(Wc, [h_prev, x]))  # 新候选记忆
    ct = ft * c_prev + it * ct_tilde        # 记忆更新
    ht = ot * tanh(ct)                     # 隐藏状态
    return ht, ct

GRU（门控循环单元）作为LSTM的简化版，合并了遗忘门与输入门为更新门，减少了25%的参数量。实验显示，在相同数据规模下，GRU的训练速度比LSTM快约30%，但长序列建模能力略弱。

三、Transformer架构：自注意力机制的革命

2017年提出的Transformer模型彻底改变了序列建模范式，其核心创新在于自注意力机制（Self-Attention）。与传统RNN/LSTM的顺序处理不同，Transformer通过并行计算所有位置的关系，实现了O(1)的复杂度访问任意距离信息。

1. 自注意力计算流程

自注意力包含三个关键矩阵：

Query矩阵（Q）：当前位置的查询向量
Key矩阵（K）：所有位置的键向量
Value矩阵（V）：所有位置的值向量

计算步骤为：

计算注意力分数：Score = Q * K^T
缩放分数：Scaled_Score = Score / sqrt(d_k)（d_k为K的维度）
计算权重：Weights = softmax(Scaled_Score)
加权求和：Output = Weights * V

# 缩放点积注意力实现
def scaled_dot_product_attention(Q, K, V):
    d_k = K.shape[-1]
    scores = np.dot(Q, K.T) / np.sqrt(d_k)
    weights = softmax(scores, axis=-1)
    return np.dot(weights, V)

2. 多头注意力机制

为增强模型捕捉不同类型关系的能力，Transformer引入多头注意力。假设使用8个头，每个头独立计算注意力后拼接：

# 多头注意力简化实现
def multi_head_attention(Q, K, V, num_heads=8):
    d_model = Q.shape[-1]
    d_k = d_model // num_heads
    # 线性变换并分割头
    Q_split = np.split(np.dot(Q, Wq), num_heads, axis=-1)
    K_split = np.split(np.dot(K, Wk), num_heads, axis=-1)
    V_split = np.split(np.dot(V, Wv), num_heads, axis=-1)
    # 并行计算各头注意力
    outputs = [scaled_dot_product_attention(q, k, v) 
               for q, k, v in zip(Q_split, K_split, V_split)]
    # 拼接并线性变换
    return np.dot(np.concatenate(outputs, axis=-1), Wo)

四、Transformer编码器架构详解

完整的Transformer编码器层包含两个子层：

多头自注意力层：捕捉序列内关系
前馈神经网络层：非线性变换（通常为两层MLP）

每个子层后接残差连接与层归一化，公式为：

Sublayer_output = LayerNorm(x + Sublayer(x))

五、工程实践中的关键优化

位置编码：由于Transformer缺乏递归结构，需显式注入位置信息。原始论文采用正弦/余弦编码：

def positional_encoding(pos, d_model):
    pe = np.zeros((pos, d_model))
    position = np.arange(pos)[:, np.newaxis]
    div_term = np.exp(np.arange(0, d_model, 2) * 
                     -(np.log(10000.0) / d_model))
    pe[:, 0::2] = np.sin(position * div_term)
    pe[:, 1::2] = np.cos(position * div_term)
    return pe

学习率调度：采用逆平方根衰减策略，初始学习率较高（如0.1），随训练步数增加逐渐衰减。
标签平滑：为缓解过拟合，将真实标签的1.0替换为0.9，其余0.1均匀分配给其他类别。

六、现代NLP系统的演进方向

当前主流架构已从RNN/LSTM转向Transformer变体，如：

BERT：双向编码器表示，通过掩码语言模型预训练
GPT系列：自回归解码器，采用从左到右的生成式训练
T5：将所有NLP任务统一为文本到文本转换

开发者在构建系统时，建议优先选择预训练模型微调（Fine-tuning）而非从头训练。以文本分类为例，仅需在预训练模型顶部添加一个分类头即可：

# 伪代码：基于预训练模型的分类器
class TextClassifier(nn.Module):
    def __init__(self, pretrained_model):
        super().__init__()
        self.encoder = pretrained_model
        self.classifier = nn.Linear(pretrained_model.hidden_size, num_classes)
    def forward(self, input_ids):
        outputs = self.encoder(input_ids)
        pooled_output = outputs.last_hidden_state[:, 0, :]  # 取[CLS]标记
        return self.classifier(pooled_output)

七、性能优化建议

混合精度训练：使用FP16计算加速训练，同时保持FP32的参数更新
梯度累积：模拟大batch训练，通过多次前向传播累积梯度后更新
分布式训练：采用数据并行或模型并行策略，支持超大规模模型训练

通过系统掌握序列建模技术从RNN到Transformer的演进路径，开发者能够更高效地构建现代NLP应用。实际工程中，建议结合具体任务需求选择模型架构，并充分利用预训练模型降低开发成本。