一、技术背景:大模型时代的效率困境 在GPT-4、LLaMA-2等千亿参数模型主导的AI时代,模型性能与算力消耗的矛盾日益尖锐。以GPT-4为例,其推理阶段单次查询需消耗约1.4度电(据Semianalysis测算),相当于普通笔记……