一、技术背景:端到端语音大模型的崛起 传统语音处理系统通常采用多模块串联架构,包括声学特征提取(如MFCC或梅尔频谱)、声学模型(如HMM或CTC)、语言模型(如N-gram或RNN)以及语音合成模块(如拼接合成或参数……