一、技术背景:大模型推理成本困境 当前主流大模型推理框架普遍采用“全量参数加载+静态计算图”模式,导致内存占用高、计算冗余大。以某千亿参数模型为例,单次推理需加载全部参数(约2TB显存),且计算图中存在大……