一、算法与架构持续突破,模型效率与能力双提升 2024年,大模型的核心发展仍围绕算法效率与泛化能力展开。在Transformer架构基础上,混合注意力机制(如动态稀疏注意力、局部-全局结合)将成为优化关键,通过减少……