一、Transformer的核心架构是什么?
Transformer的突破性在于抛弃传统RNN的序列依赖结构,采用自注意力机制(Self-Attention)构建并行化处理框架。其核心由编码器(Encoder)和解码器(Decoder)堆叠而成,每个编码器层包含多头注意力(Multi-Head Attention)和前馈神经网络(Feed-Forward Network),解码器额外引入交叉注意力(Cross-Attention)机制。例如,在机器翻译任务中,编码器将源语言序列映射为隐状态,解码器通过注意力权重动态聚焦编码器输出,实现上下文感知的翻译生成。
二、自注意力机制如何计算?
自注意力通过Query-Key-Value三元组实现动态权重分配。给定输入序列X∈ℝ^(n×d),首先通过线性变换生成Q、K、V矩阵:
Q = X * W_q # 查询矩阵K = X * W_k # 键矩阵V = X * W_v # 值矩阵
注意力分数由Q与K的转置点积计算,经缩放(√d_k)和Softmax归一化后加权求和:
Attention(Q,K,V) = Softmax(QK^T/√d_k) * V
多头注意力通过并行计算多个头(如8头)捕捉不同子空间的特征,最终拼接结果并通过线性层融合。
三、位置编码为何必要?如何设计?
由于自注意力缺乏序列顺序感知能力,需通过位置编码(Positional Encoding)注入时序信息。主流方案采用正弦/余弦函数生成固定位置编码:
PE(pos,2i) = sin(pos/10000^(2i/d_model))PE(pos,2i+1) = cos(pos/10000^(2i/d_model))
其中pos为位置索引,i为维度索引。该设计使模型能通过相对位置推理学习序列模式,且支持比训练更长的序列推理。
四、层归一化与残差连接的作用是什么?
Transformer在每个子层(注意力/前馈网络)后引入层归一化(Layer Normalization)和残差连接(Residual Connection),形成”Add & Norm”结构:
x = LayerNorm(x + Sublayer(x))
层归一化通过标准化每个样本的维度缓解内部协变量偏移,残差连接则解决深层网络梯度消失问题。实验表明,这种设计使模型可稳定训练至12层甚至更深。
五、如何解决训练中的梯度消失问题?
除残差连接外,Transformer采用以下优化策略:
- 自适应优化器:如Adam优化器(β1=0.9, β2=0.998),通过动量估计和自适应学习率加速收敛。
- 学习率预热(Warmup):初始阶段线性增加学习率至峰值,避免早期参数震荡。
- 标签平滑(Label Smoothing):将硬标签(0/1)替换为软标签(如ε=0.1),防止模型过度自信。
六、模型压缩的常见方法有哪些?
针对Transformer的高计算成本,主流压缩技术包括:
- 量化:将FP32权重转为INT8,模型体积缩小4倍,需配合量化感知训练(QAT)保持精度。
- 知识蒸馏:用大模型(Teacher)指导小模型(Student)训练,如DistilBERT通过损失函数迁移知识。
- 结构剪枝:移除注意力头中权重接近零的维度,实验显示剪枝50%参数仅损失2%精度。
七、如何处理长序列输入?
原始Transformer的O(n²)复杂度限制长序列处理,解决方案包括:
- 稀疏注意力:如Longformer采用滑动窗口+全局标记的混合注意力,将复杂度降至O(n)。
- 低秩近似:Linformer通过投影矩阵将K、V维度从n降至k,实现线性复杂度。
- 分块处理:将序列切分为块,单独计算块内注意力后再聚合。
八、预训练任务如何设计?
预训练是Transformer成功的关键,典型任务包括:
- 掩码语言模型(MLM):随机遮盖15%的Token,预测被遮盖词(如BERT)。
- 因果语言模型(CLM):仅根据左侧上下文预测下一个词(如GPT)。
- 排列语言模型(PLM):随机排列输入序列,预测排列末尾的词(如XLNet)。
九、多模态扩展的技术路径是什么?
Transformer通过统一架构支持跨模态学习,典型方案:
- 模态特定编码器:如ViT用Transformer编码图像,BERT编码文本,通过交叉注意力融合。
- 共享模态空间:如CLIP将图像和文本映射到同一嵌入空间,实现零样本分类。
- 联合训练任务:如VLMo同时进行图像描述生成和视觉问答,增强模态交互。
十、工程落地的最佳实践有哪些?
- 混合精度训练:使用FP16/FP32混合精度加速训练,显存占用减少50%。
- 分布式策略:采用数据并行(Data Parallel)和张量并行(Tensor Parallel)结合,支持千亿参数模型训练。
- 服务优化:通过模型量化、OP融合和内核优化,将推理延迟降低至毫秒级。
总结与展望
Transformer的技术演进呈现两大趋势:效率提升(如稀疏化、量化)和能力扩展(如多模态、长序列)。对于开发者,建议从理解自注意力机制入手,逐步掌握位置编码、归一化等核心模块,最终结合业务场景选择压缩、长序列处理等优化方案。随着硬件算力的提升和算法创新,Transformer有望在更多领域(如时序预测、图神经网络)展现潜力。