一、视觉表征:多模态的基石与起点 视觉表征技术是多模态大模型的核心输入源之一,其发展经历了从手工特征到深度学习的范式转变。早期视觉表征主要依赖SIFT、HOG等手工特征,通过局部纹理、边缘等低级特征描述图像……