一、技术背景:为什么需要蒸馏技术? 在深度学习模型部署中,大模型(如GPT-3、BERT)的高计算成本与低延迟需求形成直接矛盾。以BERT-base为例,其参数量达1.1亿,推理延迟可达数百毫秒,而移动端设备通常要求响应……