一、Transformer架构的诞生背景与核心突破 在2017年之前,主流的序列建模方法依赖循环神经网络(RNN)或卷积神经网络(CNN),但存在两大痛点:RNN的时序依赖导致并行计算困难,CNN的局部感受野限制长距离依赖捕捉……