一、技术选型与架构设计 1.1 Transformer模型的核心优势 Transformer架构通过自注意力机制(Self-Attention)解决了传统RNN的序列依赖问题,在问答任务中表现出显著优势: 并行计算能力:突破RNN的时序限制,训练……