一、多模态交互的现实困境与突破必要性 当前AI系统普遍存在”能力孤岛”现象,犹如让数学家同时担任厨师与司机。在医疗诊断场景中,AI需要同步处理CT影像(视觉)、病历文本(语言)和手术器械操作(动作),但传统……