一、基础架构与核心组件 Transformer架构Transformer是现代大模型的核心架构,通过自注意力机制(Self-Attention)实现并行计算,替代传统RNN的序列依赖结构。其关键组件包括多头注意力(Multi-Head Attention)……