一、Transformer架构:大模型的核心引擎 Transformer自2017年提出以来,已成为大模型的标准架构。其核心创新点在于自注意力机制(Self-Attention),通过动态计算词间关联权重,突破了传统RNN的序列依赖限制。典型……