一、FP8量化技术基础解析 1.1 量化技术核心原理 FP8量化通过将32位浮点数(FP32)压缩为8位浮点数(FP8),在保持模型精度的同时显著降低计算资源消耗。FP8包含两种主流格式:E4M3(4位指数+3位尾数)和E5M2,前者……