跳到主要内容

统计学基本概念

根据经济学家和抽样方法先驱阿瑟-里昂-鲍利(Arthur Lyon Bowley)的说法,统计学是「对调查事件的量化描述,并将之与其他事件进行联系」。

基本概念

  • 总体(Population):根据研究目的确定的同类对象的全体(集合)。
  • 样本(Sample):从总体中随机抽取的部分具有代表性的研究对象。
  • 参数(Parameter):反映总体特征的统计指标,如总体均数、标准差等,是固定的常量。
  • 统计量(Statistic):反映样本特征的统计指标,如样本均数、标准差等,是在参数附近波动的随机变量。
  • 统计资料分布(Statistical Distribution):定量(计量)资料、定性(计数)资料、等级资料。

统计描述

计量资料统计描述可分为集中趋势和离散趋势两大类,分别用于衡量一组数据的集中程度和离散程度。

  • 集中趋势:包括平均数、中位数、众数。
  • 离散趋势:包括极差、四分位间距、标准差、方差、变异系数。

下面逐一介绍它们的定义。

平均数

平均数(Mean),完整名称是算术平均数,又称为均值,也就是把所有的数加起来然后除以个数所得出的值。

例如:[1, 2, 3, 4],平均数 = (1+2+3+4)/4 = 2.5

中位数

中位数(Median),将数据按从小到大的顺序排列,最中间的哪个数即是中位数。

特别说明:如果数据的个数是奇数,则中间那个数据就是这群数据的中位数;如果数据的个数是偶数,则中间那2个数据的算术平均值就是这组数据的中位数。

例如:[1, 2, 3],中位数 = 2;[1, 2, 3, 4],中位数 = (2+3)/2 = 2.5。

众数

众数(Mode),一组数据中出现次数最多的数值。值得一提的是,一组数据可以有多个众数,也可以没有众数。

例如:[1, 1, 2, 3, 3, 3, 4],众数 = 3

极差

极差(Range)是一组数据中最大值与最小值之间的差距,又称范围误差或全距,以 R 表示。

例如:[1, 2, 3, 4],极差 = (4-1) = 3

四分位间距

四分位数(Quartile)也称四分位点,是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。

  • 第一四分位数告诉我们 25% 的数据点低于这个数值,75% 的数据点高于这个数值。它也被称为第25百分位数,用 Q1 表示。
  • 第二四分位数告诉我们 50% 的数据点低于该数值,其余 50% 高于该数值。它也被称为第50百分位数,用 Q2 表示。
  • 第三四分位数告诉我们 75% 的数据点低于该数值,其余 25% 高于该数值。它也被称为第75百分位数,用 Q3 表示。
  • 最大区间值,和最小区间值一样,也不是数据集中的最高值。它的计算公式是(Q3+1.5*IQR)。

四分位间距(Interquartile Range,简写 IQR)是第三四分位数和第一四分位数的差值(IQR = Q3 - Q1),也称为样本的内距或四分位差。它反映了中间 50% 数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位距不受极值的影响。

方差

方差(Variance)是各个数据分别与其平均数之差的平方和的平均数,用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究方差即偏离程度有着重要意义。

方差可以衡量一组数据的波动程度,也就是中心偏离的程度。当数据分布比较分散时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。

例如:[1, 2, 3, 4],平均数 = (1+2+3+4)/4 = 2.5

方差 = ((12.5)2+(22.5)2+(32.5)2+(42.5)2)/4((1-2.5)^2 + (2-2.5)^2 + (3-2.5)^2 + (4-2.5)^2)/4 = 1.25

标准差

标准差(Standard Deviation,简写 S.D. 或 Std. Dev)是方差的平方根。标准差越接近于零,数据点就越趋近于平均值。

例如:[1, 2, 3, 4],平均数 = 2.5,方差 = 1.25

标准差 = 1.25\sqrt{1.25} ≈ 1.118

变异系数

变异系数(variable coefficient,简写 CV)的定义为标准差与平均值之比。又称变差系数、离差系数、离散系数,在概率论和统计学中,是概率分布离散程度的一个归一化量度。

比起标准差来,变异系数的好处是不需要参照数据的平均值。变异系数是一个无量纲量,因此在比较两组量纲不同或均值不同的数据时,应该用变异系数而不是标准差来作为比较的参考。

例如:[1, 2, 3, 4],平均数 = 2.5,方差 = 1.25,标准差 ≈ 1.118

那么,变异系数 ≈ 1.118÷2.51.118 \div 2.5 ≈ 0.447