一、Kimi-VL模型架构:多模态交互的模块化设计 Kimi-VL采用“视觉-语言双塔+跨模态注意力”的混合架构,核心模块包括视觉编码器、文本编码器及跨模态融合层。视觉编码器基于改进的Vision Transformer(ViT),通过分……