一、多模态数据准备与预处理 1.1 数据采集与标注策略 多模态数据需覆盖文本、图像、音频等多种类型,建议采用分层采集策略: 文本数据:通过爬虫抓取结构化文档(如PDF、网页),结合API接口获取实时文本流 ……