一、训练数据质量缺陷:错误信息的”遗传密码” 1.1 数据污染的必然性 当前主流大模型的训练数据主要来源于互联网文本、学术文献和书籍等公开语料库。这些数据存在三个核心问题: 事实性错误:互联网内容中存在大量……