一、技术架构对比:从Transformer到混合专家的演进 1.1 基础架构差异 主流大型语言模型(LLM)的核心架构已从传统Transformer的单一结构,演变为包含混合专家(MoE)、稀疏注意力、动态路由等技术的复合架构。例如……