一、Transformer基础架构:大模型的基石 Transformer架构自2017年提出以来,已成为大模型领域的绝对主流。其核心由编码器(Encoder)和解码器(Decoder)组成,通过自注意力机制(Self-Attention)实现输入序列的……