一、引言:大模型架构演进的技术背景 自Transformer架构提出以来,大模型技术经历了从通用架构到垂直优化的演进。当前主流模型(如Llama、Qwen、DeepSeek等)在基础结构上仍遵循Transformer的编码器-解码器范式,……