一、技术背景与协同价值 当前主流的图文生成系统多采用独立训练模式:视觉生成模型(如某类扩散模型)专注于图像空间的结构与纹理生成,大语言模型(LLM)则负责文本语义的理解与表达。这种分离架构导致两大核心问……