人工智能领域 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0.1 符号主义/逻辑主义 人工预定规则 专家系统 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
分层一:人工智能在机器学习出现之前,技术路线多样化,小众化。从技术路径、实现方式等多个角度划分,机器学习(以数据驱动的自动学习为核心)是当前最主流的分支之一,除此之外,有出现过许多基于规则、逻辑、先验知识或交互反馈的分类,主要概括起来包括以下几类:
人工智能 史前分类:(机器学习之前的常见分类)├─ 0.1 符号主义(逻辑主义)与专家系统│ ├─ 核心思想:通过显式逻辑规则和符号表示知识,模拟人类逻辑推理(依赖人工定义规则)│ ├─ 典型应用:专家系统(如MYCIN医学诊断系统、DENDRAL化学分析系统)│ └─ 特点:可解释性强;难以处理复杂/模糊/规则不明确的问题│├─ 2. 知识表示与推理│ ├─ 核心思想:用形式化语言(语义网络、本体、谓词逻辑等)表示知识,基于知识推理(演绎/归纳/溯因等)│ ├─ 示例:用“本体”定义“人是动物的子类”,通过逻辑推导“苏格拉底会死”│ └─ 特点:依赖人工定义的知识和推理规则;不涉及数据驱动学习│├─ 3. 行为主义(进化主义)│ ├─ 核心思想:智能通过与环境交互和反馈产生,无需显式知识表示或逻辑推理(接近生物“试错学习”)│ ├─ 典型代表:布鲁克斯“包容架构”机器人(通过“遇障碍物转向”等简单反馈规则实现复杂行为)│ └─ 特点:强调“简单规则+环境交互”;非数据优化复杂模型│├─ 4. 基于规则的自然语言处理(NLP)与计算机视觉(CV)│ ├─ 核心思想:机器学习主导前,依赖人工设计的规则和特征处理任务│ ├─ 具体应用:│ │ ├─ 早期NLP:用句法规则解析句子(如“名词短语=形容词+名词”)、规则翻译法│ │ └─ 早期CV:用手工特征(Sobel算子、霍夫变换)识别简单目标│ └─ 特点:依赖人工设计规则,不依赖数据学习│├─ 5. 规划系统(Planning)│ ├─ 核心思想:从初始状态通过一系列行动到达目标状态(依赖“搜索+逻辑”)│ ├─ 示例:机器人路径规划(避障最优路径)、任务规划(如“做早餐”步骤排序)│ └─ 经典方法:STRIPS系统(定义行动的前提与效果,用A*等算法找最优序列)│└─ 6. 模糊逻辑与不确定性推理├─ 核心思想:用模糊集合表示“模糊/不确定”问题(如“温度有点高”),基于模糊规则推理├─ 典型应用:家电模糊控制(如空调根据“温度偏高”“湿度中等”调节制冷强度)└─ 特点:依赖人工定义的模糊规则和隶属度函数;无需数据学习 树状结构通过层级划分,清晰呈现了各分类的从属关系及核心信息,便于快速梳理机器学习之外的人工智能分支逻辑。
一、机器学习算法分类
机器学习(ML,Meachine Learning)是人工智能的核心领域,让计算机从数据中学习规律并做出预测,本文简单介绍机器学习的算法分类和开发流程。
常见的机器学习算法从学习方式上可以分为以下几类:监督学习
、无监督学习
、半监督学习等其它类型
,其中监督学习是指使用带有标签(已标记)的数据集进行训练,模型通过学习输入特征与标签之间的映射关系进行预测或分类
,监督学习又可以根据输出是否连续分为分类和回归问题,连续的称为回归,离散的称为分类;而无监督学习则是指处理无标签(未标记)的数据集,模型通过算法自行发现数据中的隐藏结构或模式(如聚类、降维)
。
| | | | |
---|
| | | k-近邻算法 贝叶斯分类 决策树 逻辑森林 逻辑回归 SVM 神经网络 | |
| | | |
| | 聚类算法将数据点分组 使得同一组内的数据点相似度高 而不同组的数据点相似度低 | | |
| | | |
| | | | |
| | Masked Language Model(BERT) 对比学习 | |
| | | |
| 多层神经网络自动提取特征 可应用于监督/无监督/强化学习 | | |
二、机器学习开发流程
以监督学习为例,但核心步骤适用于所有机器学习任务
2.1 步骤1-问题定义
核心目标:将模糊的业务需求转化为可量化的机器学习任务。
| | |
---|
| | |
| | 欺诈检测 → 高召回率(宁错杀不放过) 推荐系统 → 精确率 |
| | 医疗诊断 → 需要可解释性(选择决策树而非神经网络) |
| | |
常见陷阱:
- 将回归问题错误定义为分类问题(如将销售额预测转为"高/中/低"三分类)
2.2 步骤2-数据收集
2.3 步骤3-数据预处理
核心目标:将原始数据转化为信息密度更高的特征。
2.3.1 数据清洗
缺失值处理策略:
2.3.2 特征工程
特征变换技巧:
- 数值特征:对数变换(右偏分布)、Box-Cox变换
降维策略对比:
2.3.3 数据分割
把处理好的数据按一定比例划分训练集、测试集、验证集。
2.4 步骤4-模型选择与训练
简单算法选型决策树:
scikit-learn的算法选择决策:
计算优化技巧:
2.5 步骤5-模型评估
评估指标全景图:
分类任务:
┌─宏观指标──准确率(Accuracy)
├─类别平衡─┤
│ └─F1-score(F1)
│
├─概率评估─AUC-ROC曲线
│
└─业务对齐─精确率(Precision)/召回率(Recall)权衡
回归任务:
├─绝对误差─MAE(平均绝对误差)
├─放大异常─MSE(均方误差)
└─比例解释─R²(决定系数)
典型问题诊断:
2.6 步骤6-模型调优
调优方法对比:
调优黄金法则:
2.7 步骤7-模型部署与监控
简单的部署架构示例:
用户请求 → API网关 → 预测微服务 → 模型缓存
↓
监控系统(Prometheus)
↓
日志分析 → 模型性能仪表盘
监控关键指标:
可参考的迭代触发机制:
监控警报规则:
- PSI > 0.25 → 严重漂移
- 精度下降 > 15% → 需要重新训练
- 新数据量 > 10倍原始数据 → 自动触发增量训练
模型版本管理参考:
- A/B测试流量分配(10%新模型 vs 90%旧模型)
动态流程调整: