一、技术背景与需求分析 在多媒体内容处理领域,将视频中的语音转换为文字(ASR,Automatic Speech Recognition)具有广泛应用场景,如会议纪要生成、影视字幕制作、教育课程转写等。传统方法依赖人工听写,效率低……