统计学基本概念
统计学 是收集、整理、分析和解释数据的科学!理解统计学的基本概念,是学习概率与统计的基础。
什么是统计?
统计(Statistics)是收集、整理、分析和解释数据的科学。根据经济学家和抽样方法先驱阿瑟-里昂-鲍利(Arthur Lyon Bowley)的说法,统计学是「对调查事件的量化描述,并将之与其他事件进行联系」。
简单来说,统计就像"从数据中找规律":
- 收集数据
- 整理数据
- 分析数据
- 得出结论
总体和样本
总体
总体(Population)是研究对象的全体。
例子:
- 所有中国人的身高
- 所有学生的成绩
- 所有产品的质量
样本
样本(Sample)是从总体中抽取的一部分。
例子:
- 随机抽取 1000 个中国人的身高
- 随机抽取 50 个学生的成绩
- 随机抽取 100 个产品的质量
关系
- 总体是完整的集合
- 样本是总体的子集
- 通过样本推断总体
参数和统计量
参数
参数(Parameter)是反映总体特征的统计指标,是描述总体特征的数值,是固定的常量。
例子:
- 总体均值
- 总体方差
- 总体比例
统计量
统计量(Statistic)是反映样本特征的统计指标,是描述样本特征的数值,是在参数附近波动的随机变量。
例子:
- 样本均值
- 样本方差
- 样本比例
关系
- 参数是总体的特征(通常未知),是固定的常量
- 统计量是样本的特征(可以计算),是随机变量
- 用统计量估计参数
统计资料分布
统计资料分布(Statistical Distribution)是数据的分类方式:
计量资料
计量资料(Quantitative Data)是可以用数值表示的数据,如身高、体重、温度等。
定性资料
定性资料(Qualitative Data)是用类别表示的数据,如性别、颜色、类型等。
计数资料
计数资料(Count Data)是可以用计数表示的数据,如人数、件数等。
等级资料
等级资料(Ordinal Data)是有顺序的类别数据,如成绩等级(优秀、良好、及格)、满意度(非常满意、满意、一般、不满意)等。
描述性统计
集中趋势
描述数据集中趋势的指标:
均值(Mean)
均值是所有数据的平均值:
例子:数据
中位数(Median)
中位数是将数据从小到大排列后,位于中间的数。
例子:数据
- 中位数 =
如果数据个数是偶数,中位数是中间两个数的平均值。
例子:数据
- 中位数 =
众数(Mode)
众数是出现次数最多的数。
例子:数据
- 众数 =
离散程度
描述数据离散程度的指标:
极差(Range)
极差(Range)是一组数据中最大值与最小值之间的差距,又称范围误差或全距,以 表示。
例子:数据
- 极差
四分位间距(Interquartile Range)
四分位数(Quartile)也称四分位点,是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。
- 第一四分位数(Q1):告诉我们 25% 的数据点低于这个数值,75% 的数据点高于这个数值。它也被称为第25百分位数。
- 第二四分位数(Q2):告诉我们 50% 的数据点低于该数值,其余 50% 高于该数值。它也被称为第50百分位数,等于中位数。
- 第三四分位数(Q3):告诉我们 75% 的数据点低于该数值,其余 25% 高于该数值。它也被称为第75百分位数。
四分位间距(Interquartile Range,IQR)是第三四分位数和第一四分位数的差值:
它反映了中间 50% 数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位距不受极值的影响。
方差(Variance)
方差(Variance)是各个数据分别与其平均数之差的平方和的平均数,用来度量随机变量和 其数学期望(即均值)之间的偏离程度。
样本方差(除以 ):
总体方差(除以 ):
例子:数据
- 均值
- 方差
标准差(Standard Deviation)
标准差(Standard Deviation,S.D. 或 Std. Dev)是方差的平方根。标准差越接近于零,数据点就越趋近于平均值。
例子:数据
- 均值
- 方差
- 标准差
变异系数(Coefficient of Variation)
变异系数(Coefficient of Variation,CV)的定义为标准差与平均值之比。又称变差系数、离差系数、离散系数,在概率论和统计学中,是概率分布离散程度的一个归一化量度。
比起标准差来,变异系数的好处是不需要参照数据的平均值。变异系数是一个无量纲量,因此在比较两组量纲不同或均值不同的数据时,应该用变异系数而不是标准差来作为比较的参考。
例子:数据
- 均值
- 标准差
- 变异系数
推断性统计
点估计
点估计是用一个数值估计参数。
例子:
- 用样本均值 估计总体均值
- 用样本比例 估计总体比例
区间估计
区间估计是用一个区间估计参数。
例子:
- 总体均值 的 置信区间:
假设检验
假设检验是检验关于总体的假设。
步骤:
- 提出原假设 和备择假设
- 选择检验统计量
- 确定显著性水平
- 计算 值
- 做出决策
生活中的应用
市场调研
- 📊 问卷调查:用统计方法分析问卷数据
- 📈 市场分析:分析市场趋势
质量控制
- 🏭 产品质量:控制产品质量
- 📐 工程管理:管理工程项目
科学研究
- 🔬 实验设计:设计科学实验
- 📊 数据分析:分析实验数据
常见错误
错误 1:总体和样本混淆
- 总体:研究对象的全体
- 样本:从总体中抽取的一部分
错误 2:参数和统计量混淆
- 参数:总体的特征
- 统计量:样本的特征
错误 3:方差公式错误
样本方差除以 ,总体方差除以 。
错误 4:混淆不同的离散程度指标
- 极差:简单但受极值影响大
- 四分位间距:不受极值影响,反映中间50%数据的离散程度
- 标准差:最常用,但有量纲
- 变异系数:无量纲,适合比较不同量纲或均值的数据
小练习
- 计算数据 的均值、中位数、方差和标准差
- 计算数 据 的四分位数和四分位间距
- 如果样本均值是 50,样本标准差是 10,样本大小是 100,求总体均值的 置信区间和变异系数
- 比较均值、中位数、众数的特点,以及极差、四分位间距、标准差、变异系数的适用场景
- 应用题:一个班级 30 个学生的数学成绩,如何用统计方法分析这些数据?
💡 小贴士:统计学是收集、整理、分析和解释数据的科学。记住:总体是全体,样本是部分;参数是总体的特征,统计量是样本的特征。掌握统计学的基本概念,你就能分析和解释数据!