一、大模型核心概念:破除术语迷雾 1.1 Transformer架构:大模型的基石 Transformer通过自注意力机制(Self-Attention)实现并行计算,突破RNN的序列依赖限制。其核心组件包括: 多头注意力(Multi-Head Attentio……