一、技术背景:多模态大模型的感知瓶颈 多模态大模型(如视觉-语言模型)通过联合训练文本与图像特征,实现了跨模态理解与推理。然而,现有模型在处理微小视觉细节(如医学影像中的微小病灶、工业检测中的微米级缺……