一、定义与核心目标:原始资源 vs 加工工具 大模型语料库是训练大语言模型(LLM)的原始数据集合,包含文本、图像、音频等多模态数据。其核心目标是提供覆盖广泛知识领域、语言风格和任务场景的原始素材,使模型通……