一、量化技术背景与Transformer模型痛点 Transformer架构凭借自注意力机制在自然语言处理、计算机视觉等领域占据主导地位,但其参数量庞大(如BERT-base约1.1亿参数)导致推理延迟高、内存占用大。传统浮点计算(F……