一、大模型效率革命:从参数膨胀到智能压缩 本周多篇论文聚焦大模型轻量化技术,其中《Structured Pruning for Efficient LLM Inference》提出基于矩阵分解的结构化剪枝方法,在保持GPT-3级模型准确率的同时,将推……