一、端到端语音大模型的技术演进与Step-Audio 2 mini的定位 传统语音交互系统通常由ASR(语音识别)、NLP(自然语言处理)、TTS(语音合成)三个独立模块串联构成,这种”管道式”架构存在误差累积、上下文断裂等问……