一、技术背景与核心挑战 在智能语音交互领域,传统方案通常采用级联架构:通过自动语音识别(ASR)将语音转为文本,经语言模型(LLM)处理后,再通过文本转语音(TTS)合成输出。这种模式存在三大痛点: 高延迟:……