第04章 数据的概括性度量
总量程度的度量
总量指标的概念和作用
总量指标(绝对指标):反映社会经济现象一定时间、地点、条件下总的规模、水平的统计指标。
作用: - 反映一个国家的基本国情和国力,反映某部门、单位等人、财、的基本数据 - 是进行决策和科学管理的依据之一 - 是计算相对指标和平均指标的基础
总量指标的分类
按反映的内容分类: - 总体单位总量:度量总体的单位数数量 - 总体标志总量:度量总体中某个标志值总和的量
按反映的时间状况分类: - 时期指标:反映现象在某一时期发展过程的总数量 - 时点指标:反映现象在某一时刻的状况
总量指标的计量单位
主要有三种形式:
- 实物单位:
- 自然单位:辆、双、头、根、个等
- 度量衡单位:吨、米、克、立方米等
- 双重单位:公里/小时、吨/台等
- 复合单位:吨公里、千瓦小时等
- 价值单位(货币单位):
- 包括现行价格和不变价格
- 使不能直接相加的产品产量过渡到能够加总
- 劳动单位:
- 工时:工人数和劳动时数的乘积
- 台时:设备台数和开动时数的乘积
相对程度的度量
相对指标概述
相对指标:是两个有联系的绝对指标之比。
作用: - 具体表明社会经济现象之间的比例关系 - 使不能直接对比的事物找出共同比较的基础 - 便于记忆、易于保密
表现形式: 1. 有名数形式:分子分母的单位不能化约 2. 无名数形式:分子分母的单位可以化约 - 系数或倍数:比的基数为1 - 成数:比的基数为10 - 百分数:比的基数为100 - 千分数:比的基数为1000
计划完成相对指标
概念:实际完成数与计划任务数对比的比率。
分类: 1. 计划完成程度:
\[ \begin{align} 计划完成程度 = \frac{实际完成数}{计划完成数}\times 100\% \end{align} \]
- 计划完成进度:
\[ \begin{align} 计划完成进度 = \frac{计划初期至某期实际累计完成数}{全期计划数}\times 100\% \end{align} \]
任务下达形式: 1. 以总量指标下达 2. 以平均指标下达 3. 以相对指标下达
结构相对指标
概念:反映某个总体内部分数值与总体数值之比。
计算公式:
\[ \begin{align} 结构相对指标 = \frac{总体部分数值}{总体全部数值}\times 100\% \end{align} \]
特征: - 分子分母不能颠倒 - 结构相对指标直接相加之和等于1
比例相对指标
概念:反映总体内各组成部分之间的对比关系。
计算公式:
\[ \begin{align} 比例相对指标 = \frac{总体某一部分数值}{总体中另一部分数值}\times 100\% \end{align} \]
表现形式: - 两两作比 - 多部作比
比较相对指标
概念:反映同类现象不同条件下的指标对比。
计算公式:
\[ \begin{align} 比较相对指标 = \frac{某一条件下某类指标数值}{另一条件下同类指标数值}\times 100\% \end{align} \]
强度相对指标
概念:两个性质不同但相互联系的总量指标的对比。
计算公式:
\[ \begin{align} 强度相对指标 = \frac{某一总体指标数值}{另一有联系的总体指标数值}\times 100\% \end{align} \]
表现形式: - 有名数形式:用复名数表示 - 无名数形式:用百分数或千分数表示
动态相对指标
概念:反映同一现象在不同时期的发展变化程度。
计算公式:
\[ \begin{align} 动态相对指标 = \frac{报告期数值}{基期数值}\times 100\% \end{align} \]
分类: 1. 固定基期比较: - 以某一固定时期为基期进行比较 - 反映总的发展趋势和变化程度
- 环比比较:
- 以前一时期为基期进行比较
- 反映逐期发展变化情况
- 定基比较:
- 以某一固定时期为基期进行比较
- 反映总的发展趋势
集中趋势的度量
算术平均数
概念:总体各单位标志值之和除以总体单位数。
计算公式:
- 简单算术平均数:
\[ \begin{align} \bar{X} = \frac{\sum_{i=1}^n X_i}{n} \end{align} \]
- 加权算术平均数:
\[ \begin{align} \bar{X} = \frac{\sum_{i=1}^n X_i f_i}{\sum_{i=1}^n f_i} \end{align} \]
特点: - 计算简便,应用广泛 - 受极端值影响较大 - 具有唯一性和代表性
几何平均数
概念:总体各单位标志值乘积的n次方根。
计算公式:
- 简单几何平均数:
\[ \begin{align} \bar{X}_G = \sqrt[n]{\prod_{i=1}^n X_i} \end{align} \]
- 加权几何平均数:
\[ \begin{align} \bar{X}_G = \sqrt[{\sum f_i}]{\prod_{i=1}^n X_i^{f_i}} \end{align} \]
应用: - 计算平均增长速度 - 计算平均变动速度 - 计算平均指数
调和平均数
概念:总体各单位标志值倒数的算术平均数的倒数。
计算公式:
\[ \begin{align} \bar{X}_H = \frac{n}{\sum_{i=1}^n \frac{1}{X_i}} \end{align} \]
应用: - 计算平均速度 - 计算平均单位成本
中位数
概念:将总体按标志值大小顺序排列后,居于中间位置的数值。
计算方法: 1. 单个数列: - 奇数个数:中间位置的数 - 偶数个数:中间两个数的算术平均数
- 分组数据:
\[ \begin{align} Me = L + \frac{\frac{n}{2} - \sum f_i}{f_{Me}} \cdot h \end{align} \]
其中: - L为中位数所在组的下限 - n为总频数 - ∑f_i为中位数所在组以前所有组的频数之和 - f_Me为中位数所在组的频数 - h为组距
众数
概念:总体中出现次数最多的标志值。
计算方法:
- 单项数列:
- 直接观察出现次数最多的标志值
- 组距数列:
\[ \begin{align} M_0 = L + \frac{\Delta_1}{\Delta_1 + \Delta_2} \cdot h \end{align} \]
其中: - L为众数组的下限 - Δ₁为众数组次数与前一组次数之差 - Δ₂为众数组次数与后一组次数之差 - h为组距
特点: - 不受极端值影响 - 可能不存在或存在多个 - 适用于品质标志和数量标志
算术平均数、中位数和众数的关系
- 对称分布:
- 算术平均数 = 中位数 = 众数
- 右偏分布:
- 算术平均数 > 中位数 > 众数
- 左偏分布:
- 算术平均数 < 中位数 < 众数
离散程度的度量
全距
概念:总体中最大值与最小值之差。
计算公式:
\[ R = X_{max} - X_{min} \]
特点: - 计算简单 - 只反映极端值的差异 - 不考虑中间数值的分布情况
标准差
概念:各单位标志值与算术平均数离差平方的算术平均数的平方根。
计算公式:
- 简单标准差:
\[ S = \sqrt{\frac{\sum_{i=1}^n(X_i-\bar{X})^2}{n}} \]
- 加权标准差:
\[ S = \sqrt{\frac{\sum_{i=1}^n(X_i-\bar{X})^2f_i}{\sum_{i=1}^n f_i}} \]
特点: - 计算复杂但结果精确 - 考虑了所有观测值 - 受极端值影响较大
方差
概念:标准差的平方。
计算公式:
\[ S^2 = \frac{\sum_{i=1}^n(X_i-\bar{X})^2}{n} \]
特点: - 是最重要的离散程度测度指标 - 具有可加性 - 在统计推断中应用广泛
变异系数
概念:标准差与算术平均数之比。
计算公式:
\[ CV = \frac{S}{\bar{X}} \times 100\% \]
特点: - 消除了量纲的影响 - 可以比较不同单位指标的离散程度 - 可以比较不同平均水平的离散程度
四分位差
概念:上四分位数与下四分位数之差。
计算公式:
\[ Q = Q_3 - Q_1 \]
特点: - 不受极端值影响 - 计算相对简单 - 反映中间50%数据的离散程度
离散程度度量的补充说明
标准差的计算简化公式:
\[ \begin{align} S = \sqrt{\frac{\sum X^2}{n} - \left(\frac{\sum X}{n}\right)^2} \end{align} \]
分组数据的标准差计算:
\[ \begin{align} S = \sqrt{\frac{\sum X^2 f}{\sum f} - \left(\frac{\sum X f}{\sum f}\right)^2} \end{align} \]
四分位数的计算:
- 未分组数据:
\[ \begin{align} Q_1 = \frac{n+1}{4} \text{位置的值} \end{align} \]
\[ \begin{align} Q_3 = \frac{3(n+1)}{4} \text{位置的值} \end{align} \]
- 分组数据:
\[ \begin{align} Q_1 = L_1 + \frac{\frac{n}{4} - \sum f_1}{f_{Q_1}} \cdot h \end{align} \]
\[ \begin{align} Q_3 = L_3 + \frac{\frac{3n}{4} - \sum f_3}{f_{Q_3}} \cdot h \end{align} \]
离散程度度量的选择原则:
- 数据分布特征:
- 对称分布:标准差
- 偏态分布:四分位差
- 数据量纲:
- 相同量纲:标准差
- 不同量纲:变异系数
- 极端值影响:
- 有极端值:四分位差
- 无极端值:标准差
分布形态的度量
偏态及其测度
偏态(skewness):对数据分布偏斜程度的测度。
偏态系数SK的特征:
- \(SK=0\)为对称分布
- \(SK>0\)为右偏分布
- \(SK<0\)为左偏分布
- \(|SK|>1\),被称为高度偏态分布
- \(0.5<|SK| \leq 1\),被认为是中等偏态分布
- \(SK\simeq 0\),偏斜程度就越低
偏态系数的计算
偏态系数的计算:
- 根据原始数据计算:
\[ \begin{align} SK = \frac{n}{(n-1)(n-2)}\frac{ \sum_{i=1}^n{(X_i-\bar{X})^3}}{S_X^3} \end{align} \]
- 根据分组数据计算:
\[ \begin{align} SK = \frac{1}{\sum{f_i}} \cdot \frac{\sum_{i=1}^n{\left((M_i-\bar{X})^3 \cdot f_i\right)}}{S_X^3} \end{align} \]
其中: - n表示总次数 - f_i表示各组次数 - M_i表示各组组中值 - S_X表示样本标准差
峰态及其测度
峰态系数(kurtosis):用于描述数据分布的尖峭程度。
峰态系数的计算
峰态系数的计算:
- 根据原始数据计算:
\[ \begin{align} KT = \frac{n(n+1)}{(n-1)(n-2)(n-3)} \frac{\sum_{i=1}^n{(X_i-\bar{X})^4}}{S_X^4} - \frac{3(n-1)^2}{(n-2)(n-3)} \end{align} \]
- 根据分组数据计算:
\[ \begin{align} KT = \frac{\sum_{i=1}^n{\left((M_i-\bar{X})^4 \cdot f_i\right)} }{(\sum{f_i})\cdot S_X^4} \end{align} \]
其中: - n表示总次数 - f_i表示各组次数 - M_i表示各组组中值 - S_X表示样本标准差
分布形态度量的作用:
- 判断数据分布的对称性
- 评估数据分布的尖峭程度
- 识别异常值和极端值
- 为后续的统计分析提供基础
偏态的应用
偏态系数的解释:
- 偏态程度的判断:
- \(|SK| \leq 0.5\):轻微偏态
- \(0.5 < |SK| \leq 1\):中等偏态
- \(|SK| > 1\):高度偏态
- 偏态方向的影响:
- 右偏:数据集中在左侧,右侧有长尾
- 左偏:数据集中在右侧,左侧有长尾
- 偏态对统计推断的影响:
- 影响均值的代表性
- 影响标准差的有效性
- 影响统计检验的准确性
峰态的应用
峰态系数的解释:
- 峰态程度的判断:
- \(KT \simeq 0\):正态分布(中峰)
- \(KT > 0\):尖峰分布
- \(KT < 0\):平峰分布
- 峰态对数据分布的影响:
- 尖峰分布:数据集中在均值附近
- 平峰分布:数据分布较为分散
- 中峰分布:数据分布适中
- 峰态与偏态的关系:
- 可以同时存在
- 共同描述数据分布特征
- 影响统计推断的准确性
分布形态度量的应用场景
- 数据质量评估:
- 判断数据是否符合正态分布
- 识别异常值和极端值
- 评估数据的代表性
- 统计方法选择:
- 参数检验 vs 非参数检验
- 是否需要数据转换
- 选择合适的统计量
- 结果解释:
- 考虑分布特征的影响
- 提供更全面的分析
- 提高结论的可靠性