贝叶斯公式是概 率论的重要公式!掌握贝叶斯公式,能帮助我们根据结果推断原因。
什么是贝叶斯公式?
贝叶斯公式(Bayes' Theorem)是根据结果推断原因的概率公式。
托马斯·贝叶斯(Thomas Bayes)是18世纪的英国数学家,也是一位虔诚的牧师。据说他为了反驳对上帝的质疑而推导出贝叶斯定理。贝叶斯定理是一个由结果倒推原因的概率算法,在贝叶斯提出这个条件概率公式后,很长一段时间,大家并没有觉得它有什么作用,并一直受到主流统计学派的排斥。直到计算机诞生后,人们发现,贝叶斯定理可以广泛应用在数据分析、模式识别、统计决策,以及最火的人工智能中。结果,贝叶斯定理是如此有用,以至于不仅应用在计算机上,还广泛应用在经济学、心理学、博弈论等各种领域,可以说,掌握并应用贝叶斯定理,是每个人必备的技能。
简单理解
贝叶斯公式就像"反过来思考":
- 已知结果(事件 A 发生)
- 推断原因(哪个 Bi 导致 A 发生)
- 计算在 A 发生的条件下,Bi 发生的概率
如果事件 B1,B2,…,Bn 构成样本空间的一个划分,且 P(Bi)>0,P(A)>0,则:
P(Bi∣A)=∑j=1nP(Bj)×P(A∣Bj)P(Bi)×P(A∣Bi)=P(A)P(Bi)×P(A∣Bi)
根据条件概率的定义:
P(Bi∣A)=P(A)P(Bi∩A)
根据乘法公式:
P(Bi∩A)=P(Bi)×P(A∣Bi)
根据全概率公式:
P(A)=j=1∑nP(Bj)×P(A∣Bj)
所以:
P(Bi∣A)=∑j=1nP(Bj)×P(A∣Bj)P(Bi)×P(A∣Bi)=P(A)P(Bi)×P(A∣Bi)
特殊情况:两个事件
如果样本空间被划分为两个事件 B 和 Bˉ,则:
P(B∣A)=P(B)×P(A∣B)+P(Bˉ)×P(A∣Bˉ)P(B)×P(A∣B)
例子:医学诊断问题
- 人群中患病率是 1%(P(B)=0.01,B 表示患病)
- 如果患病,检测呈阳性的概率是 95%(P(A∣B)=0.95)
- 如果不患病,检测呈阳性的概率是 5%(P(A∣Bˉ)=0.05)
求检测呈阳性时,实际患病的概率(P(B∣A))。
解:
根据贝叶斯公式:
P(B∣A)=P(B)×P(A∣B)+P(Bˉ)×P(A∣Bˉ)P(B)×P(A∣B)
=0.01×0.95+0.99×0.050.01×0.95
=0.0095+0.04950.0095=0.0590.0095≈0.161
所以检测呈阳性时,实际患病的概率只有约 16.1%。
解释:虽然检测的准确率很高,但由于患病率很低,所以即使检测呈阳性,实际患病的概率也不高。
贝叶斯公式的应用
应用 1:医学诊断
例子:疾病诊断(见上面的例子)
应用 2:质量控制
例子:产品质量检测
- 工厂有两个车间生产产品
- 车间 1 生产 60% 的产品,次品率 2%
- 车间 2 生产 40% 的产品,次品率 3%
如果随机抽取一个产品是次品,求它来自车间 1 的概率。
解:
- 事件 A:产品是次品
- 事件 B1:产品来自车间 1,P(B1)=0.6
- 事件 B2:产品来自车间 2,P(B2)=0.4
- P(A∣B1)=0.02
- P(A∣B2)=0.03
根据全概率公式:
P(A)=0.6×0.02+0.4×0.03=0.012+0.012=0.024
根据贝叶斯公式:
P(B1∣A)=P(A)P(B1)×P(A∣B1)=0.0240.6×0.02=0.0240.012=0.5
所以如果产品是次品,它来自车间 1 的概率是 50%。
应用 3:垃圾邮件过滤
例子:垃圾邮件检测
- 邮件中 10% 是垃圾邮件
- 垃圾邮件中包含某个关键词的概率是 80%
- 正常邮件中包含该关键词的概率是 10%
如果一封邮件包含该关键词,求它是垃圾邮件的概率。
解: