一、基础架构与核心原理 Q1:Transformer为何摒弃RNN/CNN,采用自注意力机制?传统RNN因时序依赖导致并行性差,CNN虽能并行但难以捕捉长距离依赖。Transformer通过自注意力机制(Self-Attention)直接建模序列中任……