一、跨模态任务的技术定位与核心挑战 跨模态任务旨在实现不同模态数据(如图像、语音、文本)间的语义对齐与交互,典型场景包括视觉问答、语音翻译、图文生成等。其核心挑战在于模态间特征分布的异构性——视觉特征……