引言:大模型时代的轻量化需求 在自然语言处理(NLP)领域,BERT等预训练模型凭借强大的语言理解能力成为行业标杆。然而,其动辄数百MB的模型体积和数GB的显存占用,严重制约了在边缘设备、实时系统等资源受限场景……