引言 在会议记录、客服对话、影视字幕等场景中,语音数据常包含多个说话人的交替发言。传统语音识别模型因缺乏角色区分能力,导致输出文本存在归属混乱、语义断裂等问题。角色分割(Speaker Diarization)作为语音……