一、密集型LLM架构的演进背景 现代大语言模型发展呈现两大趋势:参数规模指数级增长与架构持续优化。传统Transformer架构在千亿参数规模下暴露出梯度消失、训练不稳定等问题,促使研究者探索更鲁棒的架构设计。密……