从RNN到Attention：Transformer架构前的技术演进与核心突破

一、RNN与LSTM：循环神经网络的崛起与困境

在Transformer架构出现前，循环神经网络（RNN）及其变种（如LSTM、GRU）是处理序列数据的核心工具。其核心设计理念是通过隐藏状态传递信息，实现时间步之间的依赖建模。

1. RNN的基础结构与问题

RNN的典型结构包含输入层、隐藏层和输出层，每个时间步的隐藏状态由当前输入和上一时间步的隐藏状态共同决定：

# 简化版RNN前向传播伪代码
def rnn_cell(x_t, h_prev, W_xh, W_hh, b_h):
    h_t = tanh(W_xh @ x_t + W_hh @ h_prev + b_h)
    return h_t

然而，RNN存在两大致命缺陷：

梯度消失/爆炸：长序列训练时，反向传播的梯度可能指数级衰减或增长，导致模型无法学习远距离依赖。
并行化困难：每个时间步的计算依赖前一步结果，无法利用GPU的并行计算能力。

2. LSTM的改进与局限

为解决梯度问题，LSTM引入门控机制（输入门、遗忘门、输出门）和细胞状态，通过可学习的门控参数控制信息流动：

# LSTM单元简化伪代码
def lstm_cell(x_t, h_prev, c_prev, W_f, W_i, W_o, W_c):
    f_t = sigmoid(W_f @ [h_prev, x_t])  # 遗忘门
    i_t = sigmoid(W_i @ [h_prev, x_t])  # 输入门
    o_t = sigmoid(W_o @ [h_prev, x_t])  # 输出门
    c_t = f_t * c_prev + i_t * tanh(W_c @ [h_prev, x_t])  # 细胞状态更新
    h_t = o_t * tanh(c_t)  # 隐藏状态更新
    return h_t, c_t

LSTM虽缓解了梯度问题，但仍面临以下挑战：

计算复杂度高：门控机制增加了参数数量，训练速度较慢。
序列依赖未解除：仍需按时间步顺序处理，无法实现全序列并行计算。
长距离依赖仍受限：尽管细胞状态可传递信息，但多层堆叠时梯度仍可能衰减。

二、CNN的序列处理尝试：局限与突破

卷积神经网络（CNN）最初用于图像处理，但研究者尝试将其扩展至序列任务（如机器翻译），通过一维卷积捕捉局部特征。

1. CNN处理序列的机制

CNN通过滑动窗口提取局部模式，例如使用宽度为k的卷积核处理序列：

# 一维CNN序列处理伪代码
def conv1d(x, kernel, stride=1):
    # x: (batch_size, seq_len, input_dim)
    # kernel: (kernel_width, input_dim, output_dim)
    padded_x = zero_pad(x, (kernel_width-1)//2)
    output = []
    for i in range(0, seq_len, stride):
        window = padded_x[:, i:i+kernel_width, :]
        conv_result = sum(window[:, j, :] * kernel[j, :, :] for j in range(kernel_width))
        output.append(conv_result)
    return stack(output, dim=1)  # (batch_size, new_seq_len, output_dim)

2. CNN的优缺点分析

优势：

并行化友好：卷积操作可独立计算，适合GPU加速。
局部特征捕捉：适合处理短距离依赖（如词法分析）。

局限：

长距离依赖捕捉弱：需堆叠多层或使用大卷积核，导致参数量激增。
位置敏感性低：卷积核权重共享，难以区分不同位置的重要性。

三、注意力机制的萌芽：从辅助工具到核心组件

在Transformer之前，注意力机制已作为辅助工具被引入，用于增强RNN/CNN的性能。

1. 早期注意力应用：Seq2Seq中的软对齐

在机器翻译的Seq2Seq模型中，注意力机制通过计算编码器隐藏状态与解码器当前状态的相似度，动态调整输入序列的关注权重：

# 注意力权重计算伪代码
def attention(query, key, value):
    # query: 解码器当前状态 (1, dim)
    # key: 编码器所有隐藏状态 (seq_len, dim)
    # value: 编码器输出 (seq_len, dim)
    scores = query @ key.T  # (1, seq_len)
    weights = softmax(scores)  # (1, seq_len)
    context = weights @ value  # (1, dim)
    return context

作用：

解决RNN编码器-解码器架构中的信息瓶颈问题。
允许解码器动态聚焦输入序列的不同部分。

2. 自注意力机制的探索

受早期注意力启发，研究者开始探索自注意力（Self-Attention），即让序列内部元素相互计算注意力权重。例如，在《A Structured Self-Attentive Sentence Embedding》中，模型通过自注意力生成句子嵌入：

# 自注意力矩阵计算伪代码
def self_attention(x, W_q, W_k, W_v):
    # x: (batch_size, seq_len, dim)
    Q = x @ W_q  # (batch_size, seq_len, dim_k)
    K = x @ W_k  # (batch_size, seq_len, dim_k)
    V = x @ W_v  # (batch_size, seq_len, dim_v)
    scores = Q @ K.T  # (batch_size, seq_len, seq_len)
    weights = softmax(scores / sqrt(dim_k), dim=-1)
    output = weights @ V  # (batch_size, seq_len, dim_v)
    return output

突破点：

无需依赖RNN/CNN的顺序处理，直接建模全局依赖。
参数效率高：通过矩阵运算实现并行化。

四、Transformer架构的诞生：集成与超越

Transformer的核心创新在于将自注意力机制作为基础组件，完全摒弃RNN/CNN的顺序处理模式，通过多头注意力、位置编码等设计实现高效序列建模。

1. 与前代架构的对比

架构类型	并行化能力	长距离依赖	计算复杂度	典型应用场景
RNN/LSTM	低	弱	O(n·d²)	短序列任务
CNN	高	中等	O(k·n·d²)	局部模式识别
Transformer	极高	强	O(n²·d)	长序列、大规模数据

2. 实践建议：架构选型与优化

短序列任务：若序列长度<100，可优先尝试LSTM或轻量级CNN，平衡性能与效率。
长序列任务：直接使用Transformer或其变种（如Linear Transformer），避免RNN的梯度问题。
计算资源受限：考虑混合架构（如CNN+Attention），在局部特征与全局依赖间取得平衡。
位置编码优化：若使用Transformer，可尝试相对位置编码或旋转位置嵌入（RoPE），提升长序列建模能力。

五、总结：技术演进的启示

Transformer的成功并非偶然，而是建立在RNN、CNN、注意力机制等前代技术的基础上。其核心突破在于：

并行化设计：通过自注意力实现全序列并行计算，充分利用现代硬件。
全局依赖捕捉：多头注意力机制允许模型同时关注不同位置的信息。
可扩展性：通过层堆叠和参数调整，适应从短文本到长文档的不同场景。

对于开发者而言，理解前代架构的局限与Transformer的创新点，有助于在模型选型、性能优化和自定义架构设计中做出更合理的决策。