一、模型架构:Transformer变体的差异化实现 1.1 注意力机制的核心差异 ChatGPT基于原始Transformer的Multi-Head Self-Attention(MHSA)架构,通过多头并行处理捕捉不同位置的语义关联。其注意力权重计算遵循经典……