一、模型架构类核心术语 1. Transformer架构 作为当前大模型的主流架构,Transformer通过自注意力机制(Self-Attention)实现并行计算,突破了RNN的序列处理瓶颈。其核心组件包括: 多头注意力机制:将输入分割为……