贝叶斯学习笔记 - 详解
贝叶斯原理:概率推理的核心
贝叶斯方法的核心思想在于利用“条件概率”进行推理。简单来说,就是当我们获得新的信息时,如何更新我们对某个事件发生概率的看法。这就像侦探破案,每获得一条新的线索,都会调整对案件真相的判断。贝叶斯原理的基本公式如下:
P(A∣B)=P(B∣A)⋅P(A)P(B)P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}P(A∣B)=P(B)P(B∣A)⋅P(A)
让我们来拆解这个公式的每个部分:
P(A∣B)P(A|B)P(A∣B):后验概率(Posterior Probability)
- 这是我们最关心的部分。它表示在事件B已经发生的情况下,事件A发生的概率。例如,在已知邮件中包含“免费”这个词的情况下,这封邮件是垃圾邮件的概率。
P(B∣A)P(B|A)P(B∣A):似然度(Likelihood)
- 垃圾邮件的情况下,它囊括“免费”这个词的概率。就是表示在事件A发生的情况下,事件B发生的概率。例如,在已知邮件
P(A)P(A)P(A):先验概率(Prior Probability)
- 表示事件A独立发生的概率,也就是在没有任何新信息的情况下,大家对事件A发生可能性的初始估计。例如,所有邮件中垃圾邮件的比例。
P(B)P(B)P(B):证据(Evidence)或归一化常数(Normalizing Constant)
- 一个常数。就是表示事件B独立发生的概率。它的作用是确保后验概率的总和为1。在实际计算中,当比较不同A的概率时,P(B)通常可以被忽略,因为它对所有A都
通过通过这个公式,我们能够看到,贝叶斯原理提供了一种从“先验知识”(P(A)P(A)P(A))和“新证据”(P(B∣A)P(B|A)P(B∣A))中学习,并得出“更新后的知识”(P(A∣B)P(A|B)P(A∣B))的强大机制。
朴素贝叶斯:简单而强大的分类器
它做了一个非常大胆且简化的假设:就是“朴素贝叶斯”(Naive Bayes)中的“朴素”一词,是其最显著的特点,也是其优势和局限性的来源。这个“朴素”指的所有特征之间是相互独立的。这意味着,模型认为数据中的每个属性(比如一封邮件中的每个单词)对最终分类结果(比如是否是垃圾邮件)的影响是独立的,彼此之间没有关联。
为什么说它“朴素”?
在文本分类领域。就是在现实世界中,特征之间往往是相互关联的。例如,在判断一封邮件是否是垃圾邮件时,“免费”和“赢得”这两个词可能经常同时出现,并且它们都强烈暗示着垃圾邮件。然而,朴素贝叶斯会忽略此种关联性,它会假设“免费”的出现与“赢得”的出现是完全独立的事件。尽管这个假设在很多情况下并不成立,但令人惊讶的是,朴素贝叶斯在实际应用中表现得异常出色,尤其
工作原理举例:垃圾邮件分类
让大家以垃圾邮件分类为例来理解朴素贝叶斯的工作原理:
训练阶段:
- 我们会给模型大量的邮件样本,这些邮件已经被标记为“垃圾邮件”或“非垃圾邮件”。
- 模型会统计每个词在“垃圾邮件”和“非垃圾邮件”中出现的频率。例如,它会计算“免费”该词在所有垃圾邮件中出现的概率,以及在所有非垃圾邮件中出现的概率。
- 同样,它也会计算“赢得”、“恭喜”等其他词的出现概率。
预测阶段:
- 当一封新邮件到来时,朴素贝叶斯会扫描邮件中的所有词语。
- 对于邮件中的每个词,它会根据训练阶段学到的概率,计算这封邮件是垃圾邮件的概率(假设这个词出现)和非垃圾邮件的概率(假设这个词出现)。
- 由于“朴素”的独立性假设,它会将所有词语的概率“相乘”(或者更准确地说,将对数概率相加),从而综合判断这封邮件是垃圾邮件的最终概率。
适用场景:
朴素贝叶斯模型因其简单、高效和易于建立而广受欢迎,特定适用于以下场景:
- 文本分类:垃圾邮件检测、情感分析、新闻分类等。
- 推荐系统:基于用户偏好进行推荐。
- 医疗诊断:根据症状判断疾病。
尽管其“朴素”的假设可能与现实不符,但它在处理高维素材(如文本数据)时表现出惊人的鲁棒性,并且计算成本非常低,非常适合大规模数据集。
高斯贝叶斯:连续数据的利器
与朴素贝叶斯主要处理离散特征(如文本中的单词)不同,高斯贝叶斯(Gaussian Bayes)是贝叶斯途径的一个变体,它专门用于处理连续型数据。它的核心假设是:素材在每个类别中都服从高斯分布,也就是我们常说的正态分布。
什么是高斯分布?
一个钟形曲线,中间高,两边低。很多自然现象,如人的身高、体重、考试成绩、测量误差等,都近似服从高斯分布。高斯分布由两个参数决定:均值(决定曲线的中心位置)和标准差(决定曲线的宽度)。就是高斯分布(或正态分布)是一种非常常见的概率分布,它的图形
工作原理举例:血压判断
通过否正常,我们能够应用高斯贝叶斯模型:就是假设我们想判断一个人的血压
训练阶段:
- 大家收集大量已知血压正常和血压偏高人群的血压数据。
- 对于“血压正常”该类别,我们计算所有正常血压值的均值和标准差,从而得到一个代表正常血压人群血压分布的高斯曲线。
- 同样,对于“血压偏高”这个类别,我们也计算其血压值的均值和标准差,得到另一个代表高血压人群血压分布的高斯曲线。
预测阶段:
- 当一个新的病人的血压值到来时,高斯贝叶斯会利用这两个高斯曲线来计算:
- 在“血压正常”的假设下,出现这个血压值的概率是多少?
- 在“血压偏高”的假设下,出现这个血压值的概率是多少?
- 结合先验概率(例如,人群中血压正常和血压偏高的比例),模型会根据贝叶斯公式,计算出这个病人属于“血压正常”或“血压偏高”的最终概率,然后选择概率最高的那个类别作为预测结果。
- 当一个新的病人的血压值到来时,高斯贝叶斯会利用这两个高斯曲线来计算:
适用场景:
高斯贝叶斯特定适用于以下包含连续数值特征的分类疑问:
- 医学诊断:根据生理指标(如血压、血糖、体温)判断疾病。
- 金融风控:根据用户的交易金额、信用分数等连续数据判断欺诈行为。
- 图像识别:图像的像素值通常是连续的,可以用于某些图像分类任务。
需要注意的是,高斯贝叶斯的性能在很大程度上依赖于资料是否真的近似服从高斯分布。如果数据分布与高斯分布差异较大,可能需要对数据进行转换,或者考虑其他更适合的分类算法。
总结:贝叶斯办法的魅力
通过对贝叶斯原理、朴素贝叶斯和高斯贝叶斯的介绍,我们允许看到贝叶斯方法在处理分类问题上的独特优势。它们都基于强大的概率理论,但又各自适用于不同的数据类型和场景:
特征 | 朴素贝叶斯(Naive Bayes) | 高斯贝叶斯(Gaussian Bayes) |
---|---|---|
核心假设 | 特征之间相互独立(“朴素”假设) | 特征材料服从高斯(正态)分布 |
适用数据 | 离散型数据(如文本中的词频、类别特征) | 连续型数据(如身高、体重、温度、血压等数值特征) |
典型应用 | 文本分类(垃圾邮件检测、情感分析)、推荐系统 | 医学诊断、金融风控、某些图像识别任务 |
优点 | 容易、高效、易于实现、对高维数据鲁棒性好 | 适用于连续数据、计算效率高 |
局限性 | 独立性假设在现实中往往不成立 | 依赖于数据服从高斯分布的假设,对异常值敏感 |
这两种贝叶斯方法的共同优点是它们都非常简单高效,尤其适合在数据量大且特征间关系较弱的场景中发挥作用。