一、压测背景与技术挑战 轻量级GPT模型(如nanoGPT)凭借其低资源消耗和快速响应特性,成为边缘计算和实时交互场景的核心技术。然而,当面临每秒数千次甚至上万次的并发请求时,模型推理的稳定性、延迟和吞吐量成……