一、多语言支持的技术背景与模型能力 视觉语言模型(Vision-Language Model, VLM)的核心在于通过跨模态学习,将图像与文本的语义空间对齐,实现图文联合理解。当前主流技术方案中,模型的多语言支持能力主要依赖……