一、延迟的本质:从输入到响应的时空度量 延迟(Latency)是衡量系统对输入请求处理效率的核心指标,定义为从用户发起请求到系统返回首个有效响应的时间间隔。在AI推理场景中,这一概念可细化为两个关键阶段: 首……