一、多轮对话式视觉问答的技术实现与挑战 多轮对话式视觉问答(Multi-turn Visual Question Answering, M-VQA)要求模型在动态对话上下文中保持视觉理解的一致性,同时处理语言与图像的联合推理。其技术难点主要体……