深度学习优化器的进化困境与突破方向 在Transformer架构主导的AI大模型时代,训练稳定性已成为制约模型规模扩展的核心瓶颈。传统优化器如Adam、SGD在处理非凸损失曲面时,普遍存在梯度震荡、学习率敏感等问题。某……