一、Transformer架构诞生的背景与意义 传统NLP模型(如RNN、LSTM)存在两大核心缺陷:序列依赖导致的并行计算困难与长距离依赖捕捉能力不足。以LSTM为例,其时间复杂度为O(n²),当处理长文本时(如超过1000个token……