第04章 数据的概括性度量

总量程度的度量

总量指标的概念和作用

总量指标(绝对指标):反映社会经济现象一定时间、地点、条件下总的规模、水平的统计指标。

作用: - 反映一个国家的基本国情和国力,反映某部门、单位等人、财、的基本数据 - 是进行决策和科学管理的依据之一 - 是计算相对指标和平均指标的基础

总量指标的分类

按反映的内容分类: - 总体单位总量:度量总体的单位数数量 - 总体标志总量:度量总体中某个标志值总和的量

按反映的时间状况分类: - 时期指标:反映现象在某一时期发展过程的总数量 - 时点指标:反映现象在某一时刻的状况

总量指标的计量单位

主要有三种形式:

  1. 实物单位
    • 自然单位:辆、双、头、根、个等
    • 度量衡单位:吨、米、克、立方米等
    • 双重单位:公里/小时、吨/台等
    • 复合单位:吨公里、千瓦小时等
  2. 价值单位(货币单位):
    • 包括现行价格和不变价格
    • 使不能直接相加的产品产量过渡到能够加总
  3. 劳动单位
    • 工时:工人数和劳动时数的乘积
    • 台时:设备台数和开动时数的乘积

相对程度的度量

相对指标概述

相对指标:是两个有联系的绝对指标之比。

作用: - 具体表明社会经济现象之间的比例关系 - 使不能直接对比的事物找出共同比较的基础 - 便于记忆、易于保密

表现形式: 1. 有名数形式:分子分母的单位不能化约 2. 无名数形式:分子分母的单位可以化约 - 系数或倍数:比的基数为1 - 成数:比的基数为10 - 百分数:比的基数为100 - 千分数:比的基数为1000

计划完成相对指标

概念:实际完成数与计划任务数对比的比率。

分类: 1. 计划完成程度:

\[ \begin{align} 计划完成程度 = \frac{实际完成数}{计划完成数}\times 100\% \end{align} \]

  1. 计划完成进度:

\[ \begin{align} 计划完成进度 = \frac{计划初期至某期实际累计完成数}{全期计划数}\times 100\% \end{align} \]

任务下达形式: 1. 以总量指标下达 2. 以平均指标下达 3. 以相对指标下达

结构相对指标

概念:反映某个总体内部分数值与总体数值之比。

计算公式

\[ \begin{align} 结构相对指标 = \frac{总体部分数值}{总体全部数值}\times 100\% \end{align} \]

特征: - 分子分母不能颠倒 - 结构相对指标直接相加之和等于1

比例相对指标

概念:反映总体内各组成部分之间的对比关系。

计算公式

\[ \begin{align} 比例相对指标 = \frac{总体某一部分数值}{总体中另一部分数值}\times 100\% \end{align} \]

表现形式: - 两两作比 - 多部作比

比较相对指标

概念:反映同类现象不同条件下的指标对比。

计算公式

\[ \begin{align} 比较相对指标 = \frac{某一条件下某类指标数值}{另一条件下同类指标数值}\times 100\% \end{align} \]

强度相对指标

概念:两个性质不同但相互联系的总量指标的对比。

计算公式

\[ \begin{align} 强度相对指标 = \frac{某一总体指标数值}{另一有联系的总体指标数值}\times 100\% \end{align} \]

表现形式: - 有名数形式:用复名数表示 - 无名数形式:用百分数或千分数表示

动态相对指标

概念:反映同一现象在不同时期的发展变化程度。

计算公式

\[ \begin{align} 动态相对指标 = \frac{报告期数值}{基期数值}\times 100\% \end{align} \]

分类: 1. 固定基期比较: - 以某一固定时期为基期进行比较 - 反映总的发展趋势和变化程度

  1. 环比比较:
    • 以前一时期为基期进行比较
    • 反映逐期发展变化情况
  2. 定基比较:
    • 以某一固定时期为基期进行比较
    • 反映总的发展趋势

集中趋势的度量

算术平均数

概念:总体各单位标志值之和除以总体单位数。

计算公式

  1. 简单算术平均数:

\[ \begin{align} \bar{X} = \frac{\sum_{i=1}^n X_i}{n} \end{align} \]

  1. 加权算术平均数:

\[ \begin{align} \bar{X} = \frac{\sum_{i=1}^n X_i f_i}{\sum_{i=1}^n f_i} \end{align} \]

特点: - 计算简便,应用广泛 - 受极端值影响较大 - 具有唯一性和代表性

几何平均数

概念:总体各单位标志值乘积的n次方根。

计算公式

  1. 简单几何平均数:

\[ \begin{align} \bar{X}_G = \sqrt[n]{\prod_{i=1}^n X_i} \end{align} \]

  1. 加权几何平均数:

\[ \begin{align} \bar{X}_G = \sqrt[{\sum f_i}]{\prod_{i=1}^n X_i^{f_i}} \end{align} \]

应用: - 计算平均增长速度 - 计算平均变动速度 - 计算平均指数

调和平均数

概念:总体各单位标志值倒数的算术平均数的倒数。

计算公式

\[ \begin{align} \bar{X}_H = \frac{n}{\sum_{i=1}^n \frac{1}{X_i}} \end{align} \]

应用: - 计算平均速度 - 计算平均单位成本

中位数

概念:将总体按标志值大小顺序排列后,居于中间位置的数值。

计算方法: 1. 单个数列: - 奇数个数:中间位置的数 - 偶数个数:中间两个数的算术平均数

  1. 分组数据:

\[ \begin{align} Me = L + \frac{\frac{n}{2} - \sum f_i}{f_{Me}} \cdot h \end{align} \]

其中: - L为中位数所在组的下限 - n为总频数 - ∑f_i为中位数所在组以前所有组的频数之和 - f_Me为中位数所在组的频数 - h为组距

众数

概念:总体中出现次数最多的标志值。

计算方法

  1. 单项数列:
    • 直接观察出现次数最多的标志值
  2. 组距数列:

\[ \begin{align} M_0 = L + \frac{\Delta_1}{\Delta_1 + \Delta_2} \cdot h \end{align} \]

其中: - L为众数组的下限 - Δ₁为众数组次数与前一组次数之差 - Δ₂为众数组次数与后一组次数之差 - h为组距

特点: - 不受极端值影响 - 可能不存在或存在多个 - 适用于品质标志和数量标志

算术平均数、中位数和众数的关系

  1. 对称分布:
    • 算术平均数 = 中位数 = 众数
  2. 右偏分布:
    • 算术平均数 > 中位数 > 众数
  3. 左偏分布:
    • 算术平均数 < 中位数 < 众数

离散程度的度量

全距

概念:总体中最大值与最小值之差。

计算公式

\[ R = X_{max} - X_{min} \]

特点: - 计算简单 - 只反映极端值的差异 - 不考虑中间数值的分布情况

标准差

概念:各单位标志值与算术平均数离差平方的算术平均数的平方根。

计算公式

  1. 简单标准差:

\[ S = \sqrt{\frac{\sum_{i=1}^n(X_i-\bar{X})^2}{n}} \]

  1. 加权标准差:

\[ S = \sqrt{\frac{\sum_{i=1}^n(X_i-\bar{X})^2f_i}{\sum_{i=1}^n f_i}} \]

特点: - 计算复杂但结果精确 - 考虑了所有观测值 - 受极端值影响较大

方差

概念:标准差的平方。

计算公式

\[ S^2 = \frac{\sum_{i=1}^n(X_i-\bar{X})^2}{n} \]

特点: - 是最重要的离散程度测度指标 - 具有可加性 - 在统计推断中应用广泛

变异系数

概念:标准差与算术平均数之比。

计算公式

\[ CV = \frac{S}{\bar{X}} \times 100\% \]

特点: - 消除了量纲的影响 - 可以比较不同单位指标的离散程度 - 可以比较不同平均水平的离散程度

四分位差

概念:上四分位数与下四分位数之差。

计算公式

\[ Q = Q_3 - Q_1 \]

特点: - 不受极端值影响 - 计算相对简单 - 反映中间50%数据的离散程度

离散程度度量的补充说明

标准差的计算简化公式

\[ \begin{align} S = \sqrt{\frac{\sum X^2}{n} - \left(\frac{\sum X}{n}\right)^2} \end{align} \]

分组数据的标准差计算

\[ \begin{align} S = \sqrt{\frac{\sum X^2 f}{\sum f} - \left(\frac{\sum X f}{\sum f}\right)^2} \end{align} \]

四分位数的计算

  1. 未分组数据:

\[ \begin{align} Q_1 = \frac{n+1}{4} \text{位置的值} \end{align} \]

\[ \begin{align} Q_3 = \frac{3(n+1)}{4} \text{位置的值} \end{align} \]

  1. 分组数据:

\[ \begin{align} Q_1 = L_1 + \frac{\frac{n}{4} - \sum f_1}{f_{Q_1}} \cdot h \end{align} \]

\[ \begin{align} Q_3 = L_3 + \frac{\frac{3n}{4} - \sum f_3}{f_{Q_3}} \cdot h \end{align} \]

离散程度度量的选择原则

  1. 数据分布特征:
    • 对称分布:标准差
    • 偏态分布:四分位差
  2. 数据量纲:
    • 相同量纲:标准差
    • 不同量纲:变异系数
  3. 极端值影响:
    • 有极端值:四分位差
    • 无极端值:标准差

分布形态的度量

偏态及其测度

偏态(skewness):对数据分布偏斜程度的测度。

偏态系数SK的特征

  • \(SK=0\)为对称分布
  • \(SK>0\)为右偏分布
  • \(SK<0\)为左偏分布
  • \(|SK|>1\),被称为高度偏态分布
  • \(0.5<|SK| \leq 1\),被认为是中等偏态分布
  • \(SK\simeq 0\),偏斜程度就越低

偏态系数的计算

偏态系数的计算

  • 根据原始数据计算:

\[ \begin{align} SK = \frac{n}{(n-1)(n-2)}\frac{ \sum_{i=1}^n{(X_i-\bar{X})^3}}{S_X^3} \end{align} \]

  • 根据分组数据计算:

\[ \begin{align} SK = \frac{1}{\sum{f_i}} \cdot \frac{\sum_{i=1}^n{\left((M_i-\bar{X})^3 \cdot f_i\right)}}{S_X^3} \end{align} \]

其中: - n表示总次数 - f_i表示各组次数 - M_i表示各组组中值 - S_X表示样本标准差

峰态及其测度

峰态系数(kurtosis):用于描述数据分布的尖峭程度。

峰态系数的计算

峰态系数的计算

  • 根据原始数据计算:

\[ \begin{align} KT = \frac{n(n+1)}{(n-1)(n-2)(n-3)} \frac{\sum_{i=1}^n{(X_i-\bar{X})^4}}{S_X^4} - \frac{3(n-1)^2}{(n-2)(n-3)} \end{align} \]

  • 根据分组数据计算:

\[ \begin{align} KT = \frac{\sum_{i=1}^n{\left((M_i-\bar{X})^4 \cdot f_i\right)} }{(\sum{f_i})\cdot S_X^4} \end{align} \]

其中: - n表示总次数 - f_i表示各组次数 - M_i表示各组组中值 - S_X表示样本标准差

分布形态度量的作用

  • 判断数据分布的对称性
  • 评估数据分布的尖峭程度
  • 识别异常值和极端值
  • 为后续的统计分析提供基础

偏态的应用

偏态系数的解释

  1. 偏态程度的判断:
    • \(|SK| \leq 0.5\):轻微偏态
    • \(0.5 < |SK| \leq 1\):中等偏态
    • \(|SK| > 1\):高度偏态
  2. 偏态方向的影响:
    • 右偏:数据集中在左侧,右侧有长尾
    • 左偏:数据集中在右侧,左侧有长尾
  3. 偏态对统计推断的影响:
    • 影响均值的代表性
    • 影响标准差的有效性
    • 影响统计检验的准确性

峰态的应用

峰态系数的解释

  1. 峰态程度的判断:
    • \(KT \simeq 0\):正态分布(中峰)
    • \(KT > 0\):尖峰分布
    • \(KT < 0\):平峰分布
  2. 峰态对数据分布的影响:
    • 尖峰分布:数据集中在均值附近
    • 平峰分布:数据分布较为分散
    • 中峰分布:数据分布适中
  3. 峰态与偏态的关系:
    • 可以同时存在
    • 共同描述数据分布特征
    • 影响统计推断的准确性

分布形态度量的应用场景

  1. 数据质量评估:
    • 判断数据是否符合正态分布
    • 识别异常值和极端值
    • 评估数据的代表性
  2. 统计方法选择:
    • 参数检验 vs 非参数检验
    • 是否需要数据转换
    • 选择合适的统计量
  3. 结果解释:
    • 考虑分布特征的影响
    • 提供更全面的分析
    • 提高结论的可靠性