一、多模态交互的范式变革:从感知到决策的跨越 传统视觉语言模型(VLM)在图像描述、物体识别等感知层任务中已取得显著进展,但受限于对动态界面元素的理解与操作能力,始终难以突破”感知-决策”的闭环。CogAgent……