一、知识蒸馏与模型轻量化的技术背景 在自然语言处理(NLP)领域,BERT等预训练模型凭借强大的上下文理解能力成为主流,但其动辄数百MB的参数量和低效的推理速度严重制约了边缘设备部署。知识蒸馏(Knowledge Dist……