一、多模态任务一体化的技术背景与挑战 传统计算机视觉任务中,图像视觉问答(VQA)、图像描述生成(Caption)与光学字符识别(OCR)通常被视为独立任务,分别依赖专用模型和训练流程。例如,VQA需结合视觉特征与……