当前位置：首页 > news >正文

完整教程：决策树(Decision Tree)

news 2025/9/26 15:12:28

想象一下，你正在玩一个猜谜游戏，比如“20个问题”。每问一个问题，你就能排除一些可能性，直到最终猜出答案。决策树（Decision Tree）在机器学习中，就是这样一种算法！它通过一系列的“是”或“否”的难题（或者条件判断），一步步地帮你做出决策或预测结果。

它既可以用来做分类（比如判断一封邮件是不是垃圾邮件），也可能用来做回归（比如预测一套房子的价格）。

决策树的工作原理相当直观，就像我们人类做决策一样，通过一系列的判断来缩小范围。让我们用一个例子来理解：

场景：判断一封邮件是否为“垃圾邮件”

从根节点开始：大家第一会问第一个问题，比如“邮件标题里有没有‘优惠’？”
- 如果答案是“是”，大家沿着“是”的分支走。
- 倘若答案是“否”，我们沿着“否”的分支走。
沿着分支继续提问：
- 假设我们走了“是”的分支（标题有“优惠”），接下来可能会问：“发件人是不是陌生人？”
  - 垃圾邮件的可能性就大大增加了，我们可能就直接到达一个“垃圾邮件”的叶子节点。就是如果“是”，这封邮件
  - 如果“否”，这封邮件可能是某个促销邮件，我们可能得再问一个问题，比如“邮件内容是否包含大量链接？”
- 否包含可疑附件？”就是假设大家走了“否”的分支（标题没有“优惠”），接下来可能会问：“邮件内容
  - 垃圾邮件。就是如果“是”，很可能
  - 如果“否”，很可能是正常邮件。

这个过程会一直重复，直到我们到达一个叶子节点，得到最终的判断结果——“垃圾邮件”或“正常邮件”。

总结来说，决策树就是通过不断地根据数据的特征进行划分，一步步地逼近最终的答案。每一次划分，都试图让分出来的数据子集变得“更纯”，也就是让同一个子集里的信息尽可能属于同一类别。

信息增益是基于“熵”（Entropy）的概念。熵行理解为数据集合的“混乱程度”或“不确定性”。

信息增益就是指，通过某个特征进行划分后，内容集的熵减少了多少。信息增益越大，说明这个特征的划分能力越强，越能让数据变得更纯。决策树会选择信息增益最大的特征来作为当前节点的分裂标准。

没有完美的算法，决策树也不例外。

容易过拟合（Overfitting）：这是决策树最常见的缺点。假如决策树的深度太深，它可能会学习到训练数据中过于细节和噪声的特征，导致在新的、未见过的资料上表现不佳。这就像一个学生死记硬背了所有考题的答案，但遇到稍微变化一点的题目就束手无策。
- 补充：为了避免过拟合，大家通常会采用“剪枝”（Pruning）科技，即在树生长到一定程度后，剪掉一些不核心的分支，或者限制树的最大深度、每个叶子节点的最少样本数等。
对小变化敏感：训练数据中哪怕是很小的变动，都可能导致决策树的结构发生巨大变化，从而影响模型的稳定性。
对不平衡数据敏感：如果信息集中某个类别的样本数量远多于其他类别，决策树可能会偏向于数量多的类别，导致对少数类别的预测效果不佳。
如果特征太多或数据太麻烦，效果不一定比其他模型好：在面对非常高维度或复杂关系的数据时，单一的决策树可能表现不如集成学习（如随机森林、梯度提升树）或其他更复杂的模型。