一、背景与核心问题 在生成式AI模型规模化部署场景中,推理延迟与硬件成本是制约服务扩展的关键因素。vLLM作为行业常见技术方案,通过内存优化与并行计算显著提升LLM推理效率,但原生框架对量化模型的支持存在兼容……