跳到主要内容

概率的基本概念

概率是一种用于研究随机性的数学工具,用于处理事件发生的几率(可能性)。例如,如果你掷一枚硬币四次,结果可能不是两个正面和两个反面。但是,如果你将同一枚硬币掷出 4,000 次,结果将接近半正半反。任何一次投掷中头部的预期理论概率为 1/2 或 0.5。尽管几次重复的结果尚不确定,但当重复次数多时,结果是规律的。

概率和统计的关系

概率论就好比是给你一个模型,你可以知道这个模型会产生什么样的数据;而统计则是给你一些数据,你来判断是由什么样的模型产生的。

概率论是统计学的基础,统计学是概率论的发展,二者密不可分。可以认为统计学是概率论的应用,是强调统计推断,包括统计决断、估计、检验等问题的一门学科。

统计里更加关注的是数据与模型。模型就是变量与响应之间的关系,简单的比如线性回归模型,时间序列分析里的 ARIMA GARCH 模型,复杂的如SVM或者深度学习里的 CNN、RNN 等。这些模型的范围是什么?适用于怎样的数据类型?除此之外,统计学还要回答,在给出数据以后,这些数据能不能用上面的模型进行分析?这里就有各种假设检验,模型参数检验,数据分布的非参数检验,数据均匀性的均匀性检验。最后,统计学还要回答各类模型预测的效果怎么样,数据要怎么获取更省钱或者让模型效果更好,怎样更节约的使用数据,等等问题。

它们之间的区别包括:

  • 概率论是统计推断的基础,在给定数据生成过程下观测、研究数据的性质;
  • 而统计推断则根据观测的数据,反向思考其数据生成过程。预测、分类、聚类、估计等,都是统计推断的特殊形式,强调对于数据生成过程的研究。

因此,统计和概率是方法论上的区别,一个是推理,一个是归纳。