AI软件术语全解析：新手必知的30个核心概念

一、模型与算法类术语

1. 神经网络（Neural Network）

神经网络是模拟人脑神经元连接的计算模型，由输入层、隐藏层和输出层构成。例如，图像分类任务中，输入层接收像素数据，隐藏层通过权重计算提取特征，输出层输出类别概率。常见类型包括全连接网络（FCN）、卷积神经网络（CNN）和循环神经网络（RNN）。

应用场景：CNN用于图像识别，RNN处理时序数据（如语音）。

2. 深度学习（Deep Learning）

深度学习是神经网络的进阶形态，通过增加隐藏层数量（深度）提升特征提取能力。例如，ResNet通过残差连接解决深层网络梯度消失问题，使模型层数突破百层。

关键指标：模型深度（层数）、参数量（如百万级/十亿级）。

3. 监督学习（Supervised Learning）

依赖标注数据的训练方式，模型通过输入-输出对学习映射关系。例如，分类任务中输入图片，输出标签（猫/狗）。典型算法包括支持向量机（SVM）和随机森林。

数据要求：需高质量标注数据，标注成本占总开发成本30%-50%。

4. 无监督学习（Unsupervised Learning）

无需标注数据的训练方式，模型自主发现数据结构。典型应用包括聚类（K-Means）和降维（PCA）。例如，电商用户分群可通过聚类算法实现。

优势：降低数据标注成本，适合探索性分析。

5. 强化学习（Reinforcement Learning）

通过环境反馈优化决策的策略，核心要素包括状态（State）、动作（Action）和奖励（Reward）。例如，AlphaGo通过自我对弈优化落子策略。

实现框架：Q-Learning、Policy Gradient。

二、数据处理类术语

6. 数据集划分（Train/Val/Test Split）

将数据分为训练集（70%-80%）、验证集（10%-15%）和测试集（10%-15%）。验证集用于调参，测试集评估最终性能。

注意事项：需保证数据分布一致性，避免数据泄露。

7. 过拟合（Overfitting）

模型在训练集表现优异但测试集泛化能力差的现象。解决方案包括正则化（L1/L2）、Dropout和早停（Early Stopping）。

案例：某图像分类模型训练准确率99%，测试准确率仅75%，通过添加Dropout层提升至88%。

8. 欠拟合（Underfitting）

模型过于简单无法捕捉数据规律。特征工程（如增加高阶特征）和模型复杂度调整是常见解决手段。

诊断方法：观察训练集和验证集的损失曲线是否同步下降。

9. 数据增强（Data Augmentation）

通过旋转、翻转、裁剪等操作扩充训练数据。例如，图像分类任务中，单张图片可生成10种变形样本。

工具支持：主流深度学习框架均内置数据增强模块。

10. 特征工程（Feature Engineering）

将原始数据转换为模型可读特征的过程。包括数值归一化（Min-Max Scaling）、类别编码（One-Hot Encoding）和文本分词（TF-IDF）。

最佳实践：特征相关性分析（如Pearson系数）可剔除冗余特征。

三、性能评估类术语

11. 准确率（Accuracy）

正确预测样本占总样本的比例。适用于类别平衡场景，类别不平衡时需结合召回率（Recall）评估。

计算公式：Accuracy = (TP + TN) / (TP + TN + FP + FN)

12. 精确率（Precision）

预测为正的样本中实际为正的比例。适用于误判成本高的场景（如医疗诊断）。

计算公式：Precision = TP / (TP + FP)

13. 召回率（Recall）

实际为正的样本中被正确预测的比例。适用于漏判成本高的场景（如欺诈检测）。

计算公式：Recall = TP / (TP + FN)

14. F1分数（F1-Score）

精确率和召回率的调和平均，平衡两类错误。

计算公式：F1 = 2 (Precision Recall) / (Precision + Recall)

15. ROC曲线（Receiver Operating Characteristic）

以假正率（FPR）为横轴，真正率（TPR）为纵轴的曲线，AUC值（曲线下面积）越接近1模型性能越好。

解读：AUC=0.5时模型等同于随机猜测。

四、开发工具类术语

16. 框架（Framework）

提供算法实现和模型训练的基础设施。主流框架包括TensorFlow、PyTorch和MindSpore，均支持GPU加速和分布式训练。

选型建议：研究场景选TensorFlow，快速原型开发选PyTorch。

17. 预训练模型（Pre-trained Model）

在大规模数据集上训练的通用模型，通过微调（Fine-tuning）适配特定任务。例如，BERT模型在文本分类任务中可节省90%训练时间。

获取途径：行业常见技术方案提供的模型库。

18. API接口（Application Programming Interface）

通过HTTP请求调用AI服务的接口，参数包括输入数据、模型版本和返回格式。例如，某云厂商的OCR接口支持PDF、图片等多种格式。

调用示例：

import requests
response = requests.post(
    "https://api.example.com/ocr",
    json={"image_base64": "iVBORw0KGgoAAAANSUhEUgAA...", "model": "general"}
)
print(response.json())

19. SDK（Software Development Kit）

封装API调用的开发工具包，提供更便捷的编程接口。例如，某云厂商的AI SDK支持Python、Java等多语言调用。

优势：简化认证流程，自动处理请求签名。

20. 模型压缩（Model Compression）

通过量化（8位整数替代浮点数）、剪枝（移除冗余权重）和知识蒸馏（小模型学习大模型行为）降低模型体积。例如，MobileNet通过深度可分离卷积减少90%参数量。

应用场景：移动端和边缘设备部署。

五、进阶概念类术语

21. 迁移学习（Transfer Learning）

将源领域知识迁移到目标领域的策略。例如，在医疗影像分析中，先用自然图像预训练模型，再用少量医疗数据微调。

关键步骤：特征提取层冻结，分类层重新训练。

22. 对抗生成网络（GAN）

由生成器（Generator）和判别器（Discriminator）组成的零和博弈模型。生成器伪造数据，判别器鉴别真伪，最终生成逼真样本。

应用：图像生成、数据增强。

23. 注意力机制（Attention Mechanism）

动态调整输入信息权重的技术。例如，Transformer模型通过自注意力（Self-Attention）捕捉长距离依赖，在机器翻译中实现并行计算。

优势：解决RNN的序列依赖问题，提升训练效率。

24. 图神经网络（GNN）

处理图结构数据的神经网络，通过节点特征聚合和边关系建模实现推荐、分子性质预测等任务。

典型算法：GCN（图卷积网络）、GAT（图注意力网络）。

25. 联邦学习（Federated Learning）

在不共享原始数据的前提下联合训练模型的技术。例如，多家医院通过联邦学习构建疾病预测模型，数据保留在本地。

安全机制：差分隐私、同态加密。

六、部署与优化类术语

26. 模型服务（Model Serving）

将训练好的模型部署为在线服务的流程，包括容器化（Docker）、负载均衡和自动扩缩容。

工具链：Kubernetes、TensorFlow Serving。

27. A/B测试（A/B Testing）

对比不同模型版本的线上效果，通过流量分割（如50%用户访问A版本）评估指标差异。

关键指标：转化率、留存率。

28. 持续集成（CI）与持续部署（CD）

自动化模型训练、测试和部署的流程。例如，代码提交后自动触发测试集评估，通过后部署到预发环境。

工具支持：Jenkins、GitLab CI。

29. 边缘计算（Edge Computing）

在靠近数据源的边缘设备上运行模型，降低延迟和带宽消耗。例如，智能摄像头本地完成人脸识别，仅上传结果。

挑战：设备算力有限，需模型轻量化。

30. 自动化机器学习（AutoML）

通过算法自动完成特征工程、模型选择和超参调优的任务。例如，某云厂商的AutoML平台可一键生成最优模型。

适用场景：非专业开发者快速构建AI应用。

结语

掌握这些术语是深入AI开发的第一步。建议从实际项目出发，结合文档和开源代码实践，逐步构建知识体系。对于企业用户，可优先关注模型服务、A/B测试和联邦学习等部署优化类技术，提升业务落地效率。