相对位置自注意力机制：论文核心解析与实现指南

一、背景与问题提出

在序列建模任务（如自然语言处理、时间序列预测）中，自注意力机制（Self-Attention）已成为核心组件。其通过计算序列中各元素间的关联权重，捕捉长距离依赖关系。然而，传统自注意力机制依赖绝对位置编码（如正弦/余弦函数或可学习位置向量），存在两大局限性：

绝对位置编码的局限性：绝对位置编码假设序列位置具有固定语义，但实际场景中，序列的相对位置关系（如“A在B之前”）往往比绝对位置更重要。例如，在翻译任务中，“猫追狗”与“狗追猫”的语义差异源于相对位置变化，而非绝对位置。
泛化能力不足：绝对位置编码在训练时固定序列长度，测试时若遇到更长序列，可能因未见过位置而性能下降。

为解决上述问题，论文《Self-Attention with Relative Position Representations》提出将相对位置信息显式引入自注意力机制，通过动态计算元素间的相对位置关系，提升模型对序列结构的建模能力。

二、相对位置自注意力机制的核心思想

1. 相对位置编码的定义

相对位置编码的核心思想是：不再为每个位置分配独立编码，而是为位置差（i-j）分配编码。例如，对于序列中的两个元素x_i和x_j，其相对位置为k=i-j。模型通过学习一组可训练的相对位置向量E_k，表示x_i与x_j的相对位置关系。

2. 注意力分数的修正

传统自注意力机制的注意力分数计算为：
[
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
]
其中，Q、K、V分别为查询、键、值矩阵，d_k为键的维度。

引入相对位置后，注意力分数修正为：
[
\text{Attention}{\text{rel}}(Q, K, V) = \text{softmax}\left(\frac{QK^T + a{ij}}{\sqrt{dk}}\right)V
]
其中，a{ij}为相对位置项，由两部分组成：

内容-位置交互项：( u_k^T Q_i )，表示查询Q_i与相对位置向量E_k的交互。
位置-位置交互项：( v_k^T (K_j)^T )，表示键K_j与相对位置向量E_k的交互。

3. 相对位置向量的设计

论文提出两种相对位置向量的设计方式：

固定范围相对位置：仅考虑[-L, L]范围内的相对位置（L为预设最大距离），超出范围的位置共享同一向量。这种方式减少参数数量，适用于长序列。
无限范围相对位置：为每个可能的相对位置分配独立向量，适用于短序列或对位置敏感的任务。

三、相对位置自注意力的实现步骤

1. 参数初始化

初始化两组可训练参数：

相对位置嵌入矩阵 ( E \in \mathbb{R}^{(2L+1) \times d} )，其中L为最大相对距离，d为嵌入维度。
内容-位置交互向量 ( u \in \mathbb{R}^d ) 和位置-位置交互向量 ( v \in \mathbb{R}^d )。

2. 注意力分数计算

对于查询矩阵Q和键矩阵K，计算相对位置注意力分数的步骤如下：

计算内容-内容交互：( QK^T )。
计算内容-位置交互：
- 对于每个查询Q_i，计算其与所有相对位置向量E_k的点积：( u_k^T Q_i )。
- 生成矩阵 ( A \in \mathbb{R}^{n \times n} )，其中 ( A{ij} = u{i-j}^T Q_i )。
计算位置-位置交互：
- 对于每个键K_j，计算其与所有相对位置向量E_k的点积：( v_k^T K_j )。
- 生成矩阵 ( B \in \mathbb{R}^{n \times n} )，其中 ( B{ij} = v{i-j}^T K_j )。
合并注意力分数：
[
\text{Score}{ij} = \frac{Q_i K_j^T + A{ij} + B_{ij}}{\sqrt{d_k}}
]

3. 代码实现示例（伪代码）

import torch
import torch.nn as nn
class RelativeSelfAttention(nn.Module):
    def __init__(self, d_model, max_rel_dist=10):
        super().__init__()
        self.d_model = d_model
        self.max_rel_dist = max_rel_dist
        # 初始化相对位置嵌入和交互向量
        self.rel_emb = nn.Parameter(torch.randn(2 * max_rel_dist + 1, d_model))
        self.u = nn.Parameter(torch.randn(d_model))
        self.v = nn.Parameter(torch.randn(d_model))
        # 线性变换层
        self.q_proj = nn.Linear(d_model, d_model)
        self.k_proj = nn.Linear(d_model, d_model)
        self.v_proj = nn.Linear(d_model, d_model)
    def forward(self, x):
        # x: [batch_size, seq_len, d_model]
        batch_size, seq_len, _ = x.shape
        # 计算Q, K, V
        Q = self.q_proj(x)  # [batch_size, seq_len, d_model]
        K = self.k_proj(x)
        V = self.v_proj(x)
        # 内容-内容交互
        content_content = torch.bmm(Q, K.transpose(1, 2))  # [batch_size, seq_len, seq_len]
        # 内容-位置交互
        content_pos = []
        for i in range(seq_len):
            for j in range(seq_len):
                rel_dist = i - j
                if abs(rel_dist) > self.max_rel_dist:
                    rel_dist = self.max_rel_dist * (1 if rel_dist > 0 else -1)
                rel_emb = self.rel_emb[rel_dist + self.max_rel_dist]
                content_pos.append(torch.dot(Q[:, i, :], rel_emb))
        content_pos = torch.stack(content_pos).view(batch_size, seq_len, seq_len)
        # 位置-位置交互（简化版，实际需更高效实现）
        pos_pos = torch.zeros_like(content_content)
        for i in range(seq_len):
            for j in range(seq_len):
                rel_dist = i - j
                if abs(rel_dist) > self.max_rel_dist:
                    rel_dist = self.max_rel_dist * (1 if rel_dist > 0 else -1)
                rel_emb = self.rel_emb[rel_dist + self.max_rel_dist]
                pos_pos[:, i, j] = torch.dot(self.v, K[:, j, :]) * torch.dot(rel_emb, self.u)
        # 合并注意力分数
        scores = (content_content + content_pos + pos_pos) / (self.d_model ** 0.5)
        attn_weights = torch.softmax(scores, dim=-1)
        # 计算输出
        output = torch.bmm(attn_weights, V)
        return output

四、相对位置自注意力的优势与应用场景

1. 优势

更好的相对位置建模：显式捕捉元素间的相对位置关系，提升模型对序列结构的理解。
泛化能力更强：在测试时遇到更长序列时，相对位置编码仍能保持有效性。
参数效率更高：通过共享相对位置向量，减少参数数量。

2. 应用场景

自然语言处理：机器翻译、文本生成、问答系统等。
时间序列预测：股票价格预测、传感器数据建模等。
语音识别：声学模型中的序列建模。

五、性能优化与最佳实践

1. 相对位置范围的选择

短序列任务：可设置较大的max_rel_dist（如20），以充分捕捉相对位置信息。
长序列任务：建议设置较小的max_rel_dist（如10），避免参数过多。

2. 参数初始化策略

相对位置嵌入矩阵E可初始化为正态分布（均值0，标准差0.02）。
交互向量u和v可初始化为零向量，或与Q、K的初始化方式一致。

3. 计算效率优化

使用矩阵运算替代循环计算内容-位置和位置-位置交互项。
对于长序列，可采用稀疏注意力机制，仅计算局部相对位置的交互。

六、总结与展望

相对位置自注意力机制通过显式引入相对位置信息，解决了传统绝对位置编码的局限性，提升了模型对序列结构的建模能力。其实现简单且效果显著，已成为Transformer架构中的重要改进方向。未来研究可进一步探索：

更高效的相对位置编码方式（如基于傅里叶变换的相对位置编码）。
相对位置自注意力与其他注意力变体（如稀疏注意力、线性注意力）的结合。
在多模态任务（如图文联合建模）中的应用。

通过深入理解相对位置自注意力机制，开发者可构建更强大的序列处理模型，推动自然语言处理、时间序列分析等领域的发展。