一、传统视觉语言模型的架构困境 在DeepStack出现之前,主流视觉语言模型普遍采用”视觉编码器+语言模型”的串行架构。这类方案以某开源模型LLaVA-1.5为例,其技术路线可分解为三个关键步骤: 视觉特征提取:使用CL……