一、Transformer架构面试题深度解析 1.1 核心机制与自注意力计算 面试中常考Transformer的”灵魂”——自注意力机制(Self-Attention)。其核心公式可拆解为三步: import torchdef scaled_dot_product_attention(Q, K……