一、算力需求激增下的基础设施困局 当大模型参数量从千亿级迈向万亿级,推理时延却需从50ms压缩至15ms,传统服务器集群的”堆卡模式”正遭遇三重挑战: 算力线性增长失效:GPU数量增加带来的边际效益递减,某测试显……