一、多模态融合架构:突破传统视觉理解边界 Qianfan-VL系列模型采用Transformer-based的跨模态编码器-解码器架构,通过统一的多模态表征空间实现视觉与文本信息的深度交互。相较于传统OCR模型仅关注字符级识别,该……