一、技术背景与核心原理语音转文字(ASR)作为人机交互的基础能力,其技术演进经历了从传统声学模型到端到端深度学习模型的跨越。当前主流方案采用Transformer架构,通过自注意力机制捕捉语音信号中的时序依赖关系……