一、技术背景与问题定义 语音识别(ASR)系统在实时交互场景中面临核心矛盾:流式识别需快速输出中间结果以满足低延迟需求,而非流式识别需完整接收音频后输出最终结果以保障准确率。传统方案通常采用双模型架构,……