跳到主要内容

贝叶斯公式

贝叶斯公式是概率论的重要公式!掌握贝叶斯公式,能帮助我们根据结果推断原因。

什么是贝叶斯公式?

贝叶斯公式(Bayes' Theorem)是根据结果推断原因的概率公式。

提示

托马斯·贝叶斯(Thomas Bayes)是18世纪的英国数学家,也是一位虔诚的牧师。据说他为了反驳对上帝的质疑而推导出贝叶斯定理。贝叶斯定理是一个由结果倒推原因的概率算法,在贝叶斯提出这个条件概率公式后,很长一段时间,大家并没有觉得它有什么作用,并一直受到主流统计学派的排斥。直到计算机诞生后,人们发现,贝叶斯定理可以广泛应用在数据分析、模式识别、统计决策,以及最火的人工智能中。结果,贝叶斯定理是如此有用,以至于不仅应用在计算机上,还广泛应用在经济学、心理学、博弈论等各种领域,可以说,掌握并应用贝叶斯定理,是每个人必备的技能。

简单理解

贝叶斯公式就像"反过来思考":

  • 已知结果(事件 AA 发生)
  • 推断原因(哪个 BiB_i 导致 AA 发生)
  • 计算在 AA 发生的条件下,BiB_i 发生的概率

公式

如果事件 B1,B2,,BnB_1, B_2, \ldots, B_n 构成样本空间的一个划分,且 P(Bi)>0P(B_i) > 0P(A)>0P(A) > 0,则:

P(BiA)=P(Bi)×P(ABi)j=1nP(Bj)×P(ABj)=P(Bi)×P(ABi)P(A)P(B_i|A) = \frac{P(B_i) \times P(A|B_i)}{\sum_{j=1}^{n} P(B_j) \times P(A|B_j)} = \frac{P(B_i) \times P(A|B_i)}{P(A)}

推导

根据条件概率的定义:

P(BiA)=P(BiA)P(A)P(B_i|A) = \frac{P(B_i \cap A)}{P(A)}

根据乘法公式:

P(BiA)=P(Bi)×P(ABi)P(B_i \cap A) = P(B_i) \times P(A|B_i)

根据全概率公式:

P(A)=j=1nP(Bj)×P(ABj)P(A) = \sum_{j=1}^{n} P(B_j) \times P(A|B_j)

所以:

P(BiA)=P(Bi)×P(ABi)j=1nP(Bj)×P(ABj)=P(Bi)×P(ABi)P(A)P(B_i|A) = \frac{P(B_i) \times P(A|B_i)}{\sum_{j=1}^{n} P(B_j) \times P(A|B_j)} = \frac{P(B_i) \times P(A|B_i)}{P(A)}

特殊情况:两个事件

如果样本空间被划分为两个事件 BBBˉ\bar{B},则:

P(BA)=P(B)×P(AB)P(B)×P(AB)+P(Bˉ)×P(ABˉ)P(B|A) = \frac{P(B) \times P(A|B)}{P(B) \times P(A|B) + P(\bar{B}) \times P(A|\bar{B})}

例子

例子:医学诊断问题

  • 人群中患病率是 1%1\%P(B)=0.01P(B) = 0.01BB 表示患病)
  • 如果患病,检测呈阳性的概率是 95%95\%P(AB)=0.95P(A|B) = 0.95
  • 如果不患病,检测呈阳性的概率是 5%5\%P(ABˉ)=0.05P(A|\bar{B}) = 0.05

求检测呈阳性时,实际患病的概率(P(BA)P(B|A))。

根据贝叶斯公式:

P(BA)=P(B)×P(AB)P(B)×P(AB)+P(Bˉ)×P(ABˉ)P(B|A) = \frac{P(B) \times P(A|B)}{P(B) \times P(A|B) + P(\bar{B}) \times P(A|\bar{B})}

=0.01×0.950.01×0.95+0.99×0.05= \frac{0.01 \times 0.95}{0.01 \times 0.95 + 0.99 \times 0.05}

=0.00950.0095+0.0495=0.00950.0590.161= \frac{0.0095}{0.0095 + 0.0495} = \frac{0.0095}{0.059} \approx 0.161

所以检测呈阳性时,实际患病的概率只有约 16.1%16.1\%

解释:虽然检测的准确率很高,但由于患病率很低,所以即使检测呈阳性,实际患病的概率也不高。

贝叶斯公式的应用

应用 1:医学诊断

例子:疾病诊断(见上面的例子)

应用 2:质量控制

例子:产品质量检测

  • 工厂有两个车间生产产品
  • 车间 1 生产 60%60\% 的产品,次品率 2%2\%
  • 车间 2 生产 40%40\% 的产品,次品率 3%3\%

如果随机抽取一个产品是次品,求它来自车间 1 的概率。

  • 事件 AA:产品是次品
  • 事件 B1B_1:产品来自车间 1,P(B1)=0.6P(B_1) = 0.6
  • 事件 B2B_2:产品来自车间 2,P(B2)=0.4P(B_2) = 0.4
  • P(AB1)=0.02P(A|B_1) = 0.02
  • P(AB2)=0.03P(A|B_2) = 0.03

根据全概率公式:

P(A)=0.6×0.02+0.4×0.03=0.012+0.012=0.024P(A) = 0.6 \times 0.02 + 0.4 \times 0.03 = 0.012 + 0.012 = 0.024

根据贝叶斯公式:

P(B1A)=P(B1)×P(AB1)P(A)=0.6×0.020.024=0.0120.024=0.5P(B_1|A) = \frac{P(B_1) \times P(A|B_1)}{P(A)} = \frac{0.6 \times 0.02}{0.024} = \frac{0.012}{0.024} = 0.5

所以如果产品是次品,它来自车间 1 的概率是 50%50\%

应用 3:垃圾邮件过滤

例子:垃圾邮件检测

  • 邮件中 10%10\% 是垃圾邮件
  • 垃圾邮件中包含某个关键词的概率是 80%80\%
  • 正常邮件中包含该关键词的概率是 10%10\%

如果一封邮件包含该关键词,求它是垃圾邮件的概率。

  • 事件 AA:邮件包含关键词
  • 事件 BB:邮件是垃圾邮件,P(B)=0.1P(B) = 0.1
  • 事件 Bˉ\bar{B}:邮件是正常邮件,P(Bˉ)=0.9P(\bar{B}) = 0.9
  • P(AB)=0.8P(A|B) = 0.8
  • P(ABˉ)=0.1P(A|\bar{B}) = 0.1

根据贝叶斯公式:

P(BA)=P(B)×P(AB)P(B)×P(AB)+P(Bˉ)×P(ABˉ)P(B|A) = \frac{P(B) \times P(A|B)}{P(B) \times P(A|B) + P(\bar{B}) \times P(A|\bar{B})}

=0.1×0.80.1×0.8+0.9×0.1=0.080.08+0.09=0.080.170.471= \frac{0.1 \times 0.8}{0.1 \times 0.8 + 0.9 \times 0.1} = \frac{0.08}{0.08 + 0.09} = \frac{0.08}{0.17} \approx 0.471

所以如果邮件包含该关键词,它是垃圾邮件的概率约是 47.1%47.1\%

贝叶斯公式的意义

先验概率和后验概率

  • 先验概率P(Bi)P(B_i)(在知道结果 AA 之前,BiB_i 发生的概率)
  • 后验概率P(BiA)P(B_i|A)(在知道结果 AA 之后,BiB_i 发生的概率)

贝叶斯公式用先验概率和条件概率计算后验概率。

更新信念

贝叶斯公式体现了"根据新信息更新信念"的思想:

  • 先有先验概率(先前的信念)
  • 观察到新信息(事件 AA 发生)
  • 更新为后验概率(更新后的信念)

生活中的应用

医学

  • 🏥 疾病诊断:根据检测结果推断是否患病
  • 💊 药物效果:根据治疗效果推断药物有效性

技术

  • 📧 垃圾邮件过滤:根据邮件特征判断是否为垃圾邮件
  • 🤖 机器学习:贝叶斯分类器

决策

  • 💼 商业决策:根据市场反馈调整策略
  • 🎯 风险评估:根据新信息更新风险评估

常见错误

错误 1:先验概率和后验概率混淆

  • 先验概率P(Bi)P(B_i)(知道结果前)
  • 后验概率P(BiA)P(B_i|A)(知道结果后)

错误 2:条件概率方向错误

P(AB)P(A|B)P(BA)P(B|A) 是不同的,要注意方向。

错误 3:公式使用错误

要正确使用贝叶斯公式,注意分母是全概率公式。

小练习

  1. 人群中患病率是 2%2\%,如果患病,检测呈阳性的概率是 98%98\%;如果不患病,检测呈阳性的概率是 3%3\%。求检测呈阳性时,实际患病的概率
  2. 一个工厂有两个车间,车间 1 生产 70%70\% 的产品,次品率 1%1\%;车间 2 生产 30%30\% 的产品,次品率 2%2\%。如果随机抽取一个产品是次品,求它来自车间 1 的概率
  3. 邮件中 20%20\% 是垃圾邮件,垃圾邮件中包含某个关键词的概率是 90%90\%,正常邮件中包含该关键词的概率是 5%5\%。如果一封邮件包含该关键词,求它是垃圾邮件的概率
  4. 应用题:在医学诊断中,如何用贝叶斯公式根据检测结果推断是否患病?

💡 小贴士:贝叶斯公式是根据结果推断原因的概率公式。记住:P(BiA)=P(Bi)×P(ABi)P(A)P(B_i|A) = \frac{P(B_i) \times P(A|B_i)}{P(A)},其中 P(A)P(A) 可以用全概率公式计算。掌握贝叶斯公式,你就能根据结果推断原因!