一、Transformer架构奠基:大语言模型的起点 2017年《Attention Is All You Need》论文提出的Transformer架构,彻底改变了自然语言处理的技术范式。其核心创新在于: 自注意力机制:通过Q(Query)、K(Key)、V(Valu……