随着大模型(如GPT、BERT等)在自然语言处理、计算机视觉等领域的广泛应用,其庞大的参数量和计算需求成为部署的瓶颈。为了在资源受限的设备(如手机、边缘设备)上高效运行模型,开发者逐渐发展出三种核心技术:……