一、技术背景与核心挑战 在视频内容自动化处理场景中,语音识别模型生成的原始字幕常存在断句不合理问题。以Whisper为代表的开源模型虽能提供基础识别能力,但其输出的文本块缺乏语义边界感知,导致字幕与语音不同……