大规模语言模型的理论基础:从Transformer到自回归生成 大规模语言模型(LLM)的核心理论始于2017年Transformer架构的提出。其自注意力机制(Self-Attention)通过动态计算词间关系,突破了传统RNN的序列依赖限制……