统计学是收集、整理、分析和解释数据的科学!理解统计学的基本概念,是学习概率与统计的基础。
什么是统计?
统计(Statistics)是收集、整理、分析和解释数据的科学。
简单理解
统计就像"从数据中找规律":
总体和样本
总体(Population)是研究对象的全体。
例子:
样本(Sample)是从总体中抽取的一部分。
例子:
- 随机抽取 1000 个中国人的身高
- 随机抽取 50 个学生的成绩
- 随机抽取 100 个产品的质量
- 总体是完整的集合
- 样本是总体的子集
- 通过样本推断总体
参数和统计量
参数(Parameter)是描述总体特征的数值。
例子:
- 总体均值 μ
- 总体方差 σ2
- 总体比例 p
统计量
统计量(Statistic)是描述样本特征的数值。
例子:
- 样本均值 xˉ
- 样本方差 s2
- 样本比例 p^
- 参数是总体的特征(通常未知)
- 统计量是样本的特征(可以计算)
- 用统计量估计参数
描述性统计
集中趋势
描述数据集中趋势的指标:
均值(Mean)
均值是所有数据的平均值:
xˉ=nx1+x2+⋯+xn=n1i=1∑nxi
例子:数据 1,2,3,4,5
xˉ=51+2+3+4+5=515=3
中位数是将数据从小到大排列后,位于中间的数。
例子:数据 1,2,3,4,5
如果数据个数是偶数,中位数是中间两个数的平均值。
例子:数据 1,2,3,4,5,6
- 中位数 = 23+4=3.5
众数(Mode)
众数是出现次数最多的数。
例子:数据 1,2,2,3,4
离散程度
描述数据离散程度的指标:
方差(Variance)
方差是数据与均值差的平方的平均值:
s2=n−11i=1∑n(xi−xˉ)2
样本方差(除以 n−1):
s2=n−11i=1∑n(xi−xˉ)2
总体方差(除以 n):
σ2=n1i=1∑n(xi−μ)2
标准差(Standard Deviation)
标准差是方差的平方根:
s=s2=n−11i=1∑n(xi−xˉ)2
例子:数据 1,2,3,4,5
- 均值 xˉ=3
- 方差 s2=4(1−3)2+(2−3)2+(3−3)2+(4−3)2+(5−3)2=410=2.5
- 标准差 s=2.5≈1.58
极差(Range)
极差是最大值与最小值的差:
R=xmax−xmin
例子:数据 1,2,3,4,5
- 极差 R=5−1=4
推断性统计
点估计
点估计是用一个数值估计参数。
例子:
- 用样本均值 xˉ 估计总体均值 μ
- 用样本比例 p^ 估计总体比例 p
区间估计