跳到主要内容

统计学基本概念

统计学是收集、整理、分析和解释数据的科学!理解统计学的基本概念,是学习概率与统计的基础。

什么是统计?

统计(Statistics)是收集、整理、分析和解释数据的科学。根据经济学家和抽样方法先驱阿瑟-里昂-鲍利(Arthur Lyon Bowley)的说法,统计学是「对调查事件的量化描述,并将之与其他事件进行联系」。

简单来说,统计就像"从数据中找规律":

  • 收集数据
  • 整理数据
  • 分析数据
  • 得出结论

总体和样本

总体

总体(Population)是研究对象的全体。

例子

  • 所有中国人的身高
  • 所有学生的成绩
  • 所有产品的质量

样本

样本(Sample)是从总体中抽取的一部分。

例子

  • 随机抽取 1000 个中国人的身高
  • 随机抽取 50 个学生的成绩
  • 随机抽取 100 个产品的质量

关系

  • 总体是完整的集合
  • 样本是总体的子集
  • 通过样本推断总体

参数和统计量

参数

参数(Parameter)是反映总体特征的统计指标,是描述总体特征的数值,是固定的常量。

例子

  • 总体均值 μ\mu
  • 总体方差 σ2\sigma^2
  • 总体比例 pp

统计量

统计量(Statistic)是反映样本特征的统计指标,是描述样本特征的数值,是在参数附近波动的随机变量。

例子

  • 样本均值 xˉ\bar{x}
  • 样本方差 s2s^2
  • 样本比例 p^\hat{p}

关系

  • 参数是总体的特征(通常未知),是固定的常量
  • 统计量是样本的特征(可以计算),是随机变量
  • 用统计量估计参数

统计资料分布

统计资料分布(Statistical Distribution)是数据的分类方式:

计量资料

计量资料(Quantitative Data)是可以用数值表示的数据,如身高、体重、温度等。

定性资料

定性资料(Qualitative Data)是用类别表示的数据,如性别、颜色、类型等。

计数资料

计数资料(Count Data)是可以用计数表示的数据,如人数、件数等。

等级资料

等级资料(Ordinal Data)是有顺序的类别数据,如成绩等级(优秀、良好、及格)、满意度(非常满意、满意、一般、不满意)等。

描述性统计

集中趋势

描述数据集中趋势的指标:

均值(Mean)

均值是所有数据的平均值:

xˉ=x1+x2++xnn=1ni=1nxi\bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} = \frac{1}{n}\sum_{i=1}^{n} x_i

例子:数据 1,2,3,4,51, 2, 3, 4, 5

xˉ=1+2+3+4+55=155=3\bar{x} = \frac{1 + 2 + 3 + 4 + 5}{5} = \frac{15}{5} = 3

中位数(Median)

中位数是将数据从小到大排列后,位于中间的数。

例子:数据 1,2,3,4,51, 2, 3, 4, 5

  • 中位数 = 33

如果数据个数是偶数,中位数是中间两个数的平均值。

例子:数据 1,2,3,4,5,61, 2, 3, 4, 5, 6

  • 中位数 = 3+42=3.5\frac{3 + 4}{2} = 3.5

众数(Mode)

众数是出现次数最多的数。

例子:数据 1,2,2,3,41, 2, 2, 3, 4

  • 众数 = 22

离散程度

描述数据离散程度的指标:

极差(Range)

极差(Range)是一组数据中最大值与最小值之间的差距,又称范围误差或全距,以 RR 表示。

R=xmaxxminR = x_{\max} - x_{\min}

例子:数据 1,2,3,4,51, 2, 3, 4, 5

  • 极差 R=51=4R = 5 - 1 = 4

四分位间距(Interquartile Range)

四分位数(Quartile)也称四分位点,是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。

  • 第一四分位数(Q1):告诉我们 25% 的数据点低于这个数值,75% 的数据点高于这个数值。它也被称为第25百分位数。
  • 第二四分位数(Q2):告诉我们 50% 的数据点低于该数值,其余 50% 高于该数值。它也被称为第50百分位数,等于中位数。
  • 第三四分位数(Q3):告诉我们 75% 的数据点低于该数值,其余 25% 高于该数值。它也被称为第75百分位数。

四分位间距(Interquartile Range,IQR)是第三四分位数和第一四分位数的差值:

IQR=Q3Q1IQR = Q_3 - Q_1

它反映了中间 50% 数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位距不受极值的影响。

方差(Variance)

方差(Variance)是各个数据分别与其平均数之差的平方和的平均数,用来度量随机变量和其数学期望(即均值)之间的偏离程度。

样本方差(除以 n1n-1):

s2=1n1i=1n(xixˉ)2s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2

总体方差(除以 nn):

σ2=1ni=1n(xiμ)2\sigma^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \mu)^2

例子:数据 1,2,3,4,51, 2, 3, 4, 5

  • 均值 xˉ=3\bar{x} = 3
  • 方差 s2=(13)2+(23)2+(33)2+(43)2+(53)24=104=2.5s^2 = \frac{(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2}{4} = \frac{10}{4} = 2.5

标准差(Standard Deviation)

标准差(Standard Deviation,S.D. 或 Std. Dev)是方差的平方根。标准差越接近于零,数据点就越趋近于平均值。

s=s2=1n1i=1n(xixˉ)2s = \sqrt{s^2} = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2}

例子:数据 1,2,3,4,51, 2, 3, 4, 5

  • 均值 xˉ=3\bar{x} = 3
  • 方差 s2=2.5s^2 = 2.5
  • 标准差 s=2.51.58s = \sqrt{2.5} \approx 1.58

变异系数(Coefficient of Variation)

变异系数(Coefficient of Variation,CV)的定义为标准差与平均值之比。又称变差系数、离差系数、离散系数,在概率论和统计学中,是概率分布离散程度的一个归一化量度。

CV=sxˉCV = \frac{s}{\bar{x}}

比起标准差来,变异系数的好处是不需要参照数据的平均值。变异系数是一个无量纲量,因此在比较两组量纲不同或均值不同的数据时,应该用变异系数而不是标准差来作为比较的参考。

例子:数据 1,2,3,4,51, 2, 3, 4, 5

  • 均值 xˉ=3\bar{x} = 3
  • 标准差 s1.58s \approx 1.58
  • 变异系数 CV=1.5830.527CV = \frac{1.58}{3} \approx 0.527

推断性统计

点估计

点估计是用一个数值估计参数。

例子

  • 用样本均值 xˉ\bar{x} 估计总体均值 μ\mu
  • 用样本比例 p^\hat{p} 估计总体比例 pp

区间估计

区间估计是用一个区间估计参数。

例子

  • 总体均值 μ\mu95%95\% 置信区间:[xˉ1.96sn,xˉ+1.96sn][\bar{x} - 1.96\frac{s}{\sqrt{n}}, \bar{x} + 1.96\frac{s}{\sqrt{n}}]

假设检验

假设检验是检验关于总体的假设。

步骤

  1. 提出原假设 H0H_0 和备择假设 H1H_1
  2. 选择检验统计量
  3. 确定显著性水平 α\alpha
  4. 计算 pp
  5. 做出决策

生活中的应用

市场调研

  • 📊 问卷调查:用统计方法分析问卷数据
  • 📈 市场分析:分析市场趋势

质量控制

  • 🏭 产品质量:控制产品质量
  • 📐 工程管理:管理工程项目

科学研究

  • 🔬 实验设计:设计科学实验
  • 📊 数据分析:分析实验数据

常见错误

错误 1:总体和样本混淆

  • 总体:研究对象的全体
  • 样本:从总体中抽取的一部分

错误 2:参数和统计量混淆

  • 参数:总体的特征
  • 统计量:样本的特征

错误 3:方差公式错误

样本方差除以 n1n-1,总体方差除以 nn

错误 4:混淆不同的离散程度指标

  • 极差:简单但受极值影响大
  • 四分位间距:不受极值影响,反映中间50%数据的离散程度
  • 标准差:最常用,但有量纲
  • 变异系数:无量纲,适合比较不同量纲或均值的数据

小练习

  1. 计算数据 2,4,6,8,102, 4, 6, 8, 10 的均值、中位数、方差和标准差
  2. 计算数据 1,2,3,4,5,6,7,8,9,101, 2, 3, 4, 5, 6, 7, 8, 9, 10 的四分位数和四分位间距
  3. 如果样本均值是 50,样本标准差是 10,样本大小是 100,求总体均值的 95%95\% 置信区间和变异系数
  4. 比较均值、中位数、众数的特点,以及极差、四分位间距、标准差、变异系数的适用场景
  5. 应用题:一个班级 30 个学生的数学成绩,如何用统计方法分析这些数据?

💡 小贴士:统计学是收集、整理、分析和解释数据的科学。记住:总体是全体,样本是部分;参数是总体的特征,统计量是样本的特征。掌握统计学的基本概念,你就能分析和解释数据!