一、技术背景与核心挑战 随着大语言模型(LLM)参数规模突破千亿级,传统推理框架在内存管理、计算效率等方面暴露出显著瓶颈。例如,在处理长文本或高并发请求时,传统方案常因内存碎片化、计算单元利用率低导致延……