一、Transformer架构的起源与核心思想 Transformer架构由Vaswani等人在2017年提出,最初用于解决机器翻译任务中的长序列依赖问题。其核心思想是摒弃传统的循环神经网络(RNN)或卷积神经网络(CNN)结构,完全依赖……