一、文本多模态大模型:跨模态融合的技术突破 1.1 主流架构解析 当前多模态大模型以Transformer为核心,衍生出三类典型架构: 联合编码架构:如Flamingo通过交叉注意力机制实现文本与图像的并行处理,在VQA任务中……