一、大模型量化的核心价值:为何需要“压缩”大模型? 大模型(如万亿参数级语言模型)在推理时面临两大痛点:硬件成本高(单次推理需多卡并行)与延迟敏感场景受限(如移动端实时问答)。量化技术通过降低模型参数……