一、技术突破:多模态交互的范式革新 1.1 跨模态统一表征学习 CogAgent-9B的核心突破在于构建了视觉-语言-动作的联合嵌入空间。传统多模态模型(如CLIP)仅实现图文对齐,而CogAgent-9B通过引入动态注意力路由机制……