一、人工智能
人工智能:模拟人类智能的技术
机器学习:AI的子领域,从数据中学习模式
深度学习:机器学习的分支,使用神经网络
包含关系:深度学习⊂机器学习⊂人工智能
二、机器学习
定义:从数据中获得规律模型,用于预测
核心要素:算法是核心,数据是基础
应用领域:医疗、金融、零售、制造、交通、教育、媒体、农业、安防、环保等领域
三、数据挖掘流程
- 理解业务目标
- 数据收集
- 数据清洗和预处理
- 探索性数据分析
- 特征工程
- 数据建模
- 模型评估
- 模型优化
- 结果解释和报告
四、机器学习算法分类
- 有监督学习
(1)分类算法
特点:预测离散类别标签
常见算法:决策树,支持向量机(SVM),逻辑回归,随机森林,K近邻(KNN),朴素贝叶斯
应用场景:贷款风险分类、人脸识别、手写数字识别、垃圾邮件检测
(2)回归算法
特点:预测连续数值
常见算法:线性回归,决策树回归,支持向量回归(SVR),随机森林回归
应用场景:房价预测、股票预测、销量预测 - 无监督学习
(1)聚类算法
特点:发现数据内在分组结构
常见算法:K-means,层次聚类,DBSCAN,高斯混合模型
应用场景:客户分群、社交网络分析、市场细分
(2)降维算法
特点:减少数据维度,保留重要信息
常见算法:主成分分析(PCA),t-SNE,线性判别分析(LDA)
应用场景:数据可视化、特征提取
(3)关联规则
特点:发现数据项之间的关联关系
常见算法:Apriori,FP-Growth
应用场景:购物篮分析、推荐系统 - 强化学习
(1)基于值的方法
特点:学习状态或状态-动作对的价值函数
常见算法:Q-learning,Deep Q-Network(DQN)
应用场景:游戏AI、机器人导航
(2)基于策略的方法
特点:直接学习策略函数
常见算法:策略梯度,近端策略优化(PPO)
应用场景:机器人控制、自动驾驶
(3)基于模型的方法
特点:学习环境模型并进行规划
常见算法:蒙特卡洛树搜索,动态规划
应用场景:棋类游戏、复杂决策问题 - 集成方法
(1)Boosting(提升):串行训练,重点关注错误样本
代表算法:AdaBoost、Gradient Boosting、XGBoost
(2)Stacking(堆叠):组合多个模型预测结果,训练元模型