一、技术背景:多模态融合的必然性 在人工智能视觉生成领域,传统文生图模型(如Stable Diffusion、DALL-E)主要依赖文本提示生成图像,但存在两大局限:风格控制能力弱与细节还原度不足。例如,用户输入“绘制一幅……