一、模型架构与核心技术原理 1.1 Transformer架构的深度解析 Transformer作为大模型的核心架构,其自注意力机制(Self-Attention)是面试高频考点。需重点理解: QKV矩阵运算:输入序列通过线性变换生成Q(查询)……