第05章 相关和回归分析
5.1 变量间关系的度量
变量间的关系类型
函数关系
- 定义:两个变量之间存在一一对应的确定关系
- 数学表达:\(Y = f(X)\),其中\(X\)为自变量,\(Y\)为因变量
- 特点:
- 变量间关系是确定的
- 从几何学角度看,数据集各观测点会落在一条曲线上
- 示例:
- 商品销售额\(Y\)与销售量\(X\)的关系:\(Y_i = P_i\cdot X_i\)
- 圆的面积\(S\)与半径\(R\)的关系:\(S = \pi R^2\)
相关关系
- 定义:变量之间存在不确定的依存关系
- 特点:
- 变量间关系是不确定的
- 一个变量的取值不能由另一个变量唯一确定
- 示例:
- 父亲身高与子女身高的关系
- 收入水平与受教育程度的关系
- 粮食产量与施肥量、降雨量、温度的关系
相关关系的描述与测度
相关分析的基本问题
- 变量之间是否存在关系?
- 如果存在关系,它们之间是什么样的关系?
- 变量之间的关系强度如何?
- 样本所反映的变量之间的关系能否代表总体变量之间的关系?
相关分析的基本假定
- 两个变量之间是线性关系
- 两个变量都是随机变量
相关系数
定义与性质
- 定义:度量变量之间关系强度的统计量
- 记号:
- 总体相关系数:\(\rho\)
- 样本相关系数:\(r\)
- 性质:
- 取值范围:\(r \in [-1,1]\)
- 对称性:\(r_{XY}= r_{YX}\)
- 与原点及尺度无关
- 仅度量线性关系
- 不意味着因果关系
计算公式
- 大FF公式:
\[ \begin{align} r = \frac{n \sum X_i Y_i -\sum X_i \sum Y_i}{\sqrt{n \sum X_i^{2}-\left(\sum X_i\right)^{2}} \cdot \sqrt{n \sum Y_i^{2}-\left(\sum Y_i\right)^{2}}} \end{align} \]
- 小ff公式:
\[ \begin{align} r = \frac{ \sum{\left( (X_i - \overline{X})(Y_i - \overline{Y})\right ) } }{\sqrt{\sum{(X_i - \overline{X})^2 }\sum{(Y_i - \overline{Y})^2}}} = \frac{S S_{XY}}{\sqrt{S S_{XX}} \sqrt{S S_{YY}}} = \frac{\sum{x_iy_i}}{\sqrt{\sum{x_i^2}\sum{y_i^2}}} \end{align} \]
其中:
\[ \begin{align} S S_{X X} &=\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2} \\ S S_{Y Y} &=\sum_{i=1}^{n}\left(Y_{i}-\overline{Y}\right)^{2} \\ S S_{X Y} &=\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right) \end{align} \]
相关系数的经验解释
- 高度相关:\(|r| \geq 0.8\)
- 中度相关:\(0.5 \leq |r| < 0.8\)
- 低度相关:\(0.3 \leq |r| < 0.5\)
- 极弱相关:\(|r| < 0.3\)
偏相关系数
- 定义:在控制其他变量影响的情况下,两个变量之间的相关系数
- 计算公式:
- 保持\(X_{3i}\)不变,\(Y_i\)和\(X_{2i}\)之间的相关系数:
\[ \begin{align} r_{12 \cdot 3}=\frac{r_{12}-r_{13} r_{23}}{\sqrt{\left(1-r_{13}^{2}\right)\left(1-r_{23}^{2}\right)}} \end{align} \]
- 保持\(X_{2i}\)不变,\(Y_i\)和\(X_{3i}\)之间的相关系数:
\[ \begin{align} r_{13.2}=\frac{r_{13}-r_{12} r_{23}}{\sqrt{\left(1-r_{12}^{2}\right)\left(1-r_{23}^{2}\right)}} \end{align} \]
相关系数的显著性检验
检验步骤
- 提出假设:
- \(H_0: \rho =0\)
- \(H_1: \rho \neq 0\)
- 计算样本统计量:
\[ \begin{align} T^{\ast} = |r|\sqrt{\frac{n-2}{1-r^2}} \quad \sim t(n-2) \end{align} \]
- 确定临界值:
- 给定显著性水平\(\alpha\)
- 查t分布表得\(t_{1-\alpha/2}(n-2)\)
- 做出决策:
- 若\(T^{\ast}> t_{1-\alpha/2}(n-2)\),拒绝\(H_0\)
- 若\(T^{\ast} \leq t_{1-\alpha/2}(n-2)\),不拒绝\(H_0\)
注意事项
- 相关系数的显著性检验必须建立在样本数据的基础上
- 相关系数的大小并不一定代表关系的实际重要性
- 相关系数只能反映线性关系,不能反映非线性关系
- 相关系数不意味着因果关系
5.2 回归分析的基本思想
相关关系与因果关系
相关关系的类型
- 边际相关:两个变量之间的直接相关关系
- 条件相关:在控制其他变量影响下的相关关系
- 虚假相关:看似相关但实际无因果关系的现象
相关关系与因果关系的区别
- 相关关系不意味着因果关系
- 因果关系需要满足:
- 时间顺序
- 理论支持
- 排除其他解释
回归分析的基本概念
无条件概率与无条件期望
- 无条件概率:
- 定义:不受\(X_i\)变量取值影响下,\(Y_i\)出现的可能性
- 记号:离散变量\(P(Y_i)\);连续变量\(g(Y)\)
- 无条件期望:
- 定义:不受\(X_i\)变量取值影响下,变量\(Y_i\)的期望值
- 记号:\(g(Y_i)\)表示连续变量的概率密度函数(cdf)
- 计算公式:
\[ \begin{align} E(Y) &= \sum_1^N{Y_i \cdot P(Y_i)} &&\text{(离散变量)} \\ E(Y) &= \int{Y_i \cdot g(Y_i)dY} &&\text{(连续变量)} \end{align} \]
条件概率与条件期望
- 条件概率:
- 定义:给定变量\(X_i\)的取值条件下,\(Y_i\)出现的可能性
- 记号:离散变量\(P(Y_i|X_i)\);连续变量\(g(Y|X)\)
- 条件期望:
- 定义:在给定变量\(X_i\)的取值条件下,\(Y_i\)的期望值
- 记号:\(g(Y|X)\)表示连续变量的条件概率密度函数(cdf)
- 计算公式:
\[ \begin{align} E(Y|X_i) &= \sum_1^N{(Y_i|X_i) \cdot P(Y_i|X_i)} &&\text{(离散变量)} \\ E(Y|X_i) &= \int{(Y|X) \cdot g(Y|X)dY} &&\text{(连续变量)} \end{align} \]
总体回归分析
总体回归线(PRL)
- 定义:给定X值时Y的条件期望值的轨迹
- 特点:
- 几何上表现为一条曲线或直线
- 统计上就是Y对X的回归
- 类型:
- 总体回归曲线(PRC):条件期望值的轨迹表现为曲线
- 总体回归线(PRL):条件期望值的轨迹表现为直线
总体回归函数(PRF)
- 隐函数形式:
\[ \begin{align} E(Y|X_i) = f(X_i) &&\text{(PRF)} \end{align} \]
- 显函数形式(线性):
\[ \begin{align} E(Y|X_i) = \beta_1 + \beta_2X_i &&\text{(PRF_L)} \end{align} \]
- \(\beta_1,\beta_2\)分别称为截距和斜率系数
- \(\beta_1,\beta_2\)为总体参数或回归系数
- \(\beta_1,\beta_2\)为未知但固定的参数
总体回归模型(PRM)
- 隐函数形式:
\[ \begin{align} Y_i &= E(Y|X_i) + u_i \\ &= f(X_i) + u_i \end{align} \]
- 线性形式:
\[ \begin{align} Y_i &= E(Y|X_i) + u_i \\ &= \beta_1 + \beta_2X_i + u_i \end{align} \]
- 随机干扰项\(u_i\):
- 定义:\(u_i = Y_i - E(Y|X_i)\)
- 来源:
- 理论的含糊性
- 数据的不充分
- 其他变量的影响
- 人类行为的内在随机性
- 测量误差
- 节省原则
- 错误的函数形式
样本回归分析
样本回归线(SRL)
- 定义:通过拟合样本数据得到的一条曲线(或直线)
- 特点:
- 由拟合值\(\hat{Y}_i\)连接而成
- \(\hat{Y}_i\)是对条件期望值\(Y|X_i\)的拟合
- 可以通过不同方法拟合(如OLS)
样本回归函数(SRF)
- 线性形式:
\[ \begin{align} \hat{Y}_i = \hat{\beta}_1 + \hat{\beta}_2X_i \end{align} \]
- 与PRF的关系:
- \(\hat{Y}_i\)是对\(E(Y|X_i)\)的估计量
- \(\hat{\beta}_1\)是对\(\beta_1\)的估计量
- \(\hat{\beta}_2\)是对\(\beta_2\)的估计量
样本回归模型(SRM)
- 隐函数形式:
\[ \begin{align} Y_i = g(X_i) + e_i \end{align} \]
- 线性形式:
\[ \begin{align} Y_i = \hat{\beta}_1 + \hat{\beta}_2X_i + e_i &&\text{(SRM_L)} \end{align} \]
- 残差\(e_i\):
- 定义:\(e_i = Y_i - \hat{Y}_i = Y_i - (\hat{\beta}_1 + \hat{\beta}_2X_i)\)
- 表示样本回归函数与Y的样本观测值之间的离差
总体回归与样本回归的比较
主要区别
- 总体回归:
- 基于总体数据
- 参数\(\beta_1,\beta_2\)是固定但未知的
- 随机干扰项\(u_i\)反映总体中的随机性
- 样本回归:
- 基于样本数据
- 参数\(\hat{\beta}_1,\hat{\beta}_2\)是估计值
- 残差\(e_i\)反映样本拟合的不完全性
重要结论
- 随机抽样数据继承了总体的特征
- 利用随机样本进行数据拟合是对总体规律的”反向追踪”
- 样本回归模型中的残差是拟合不完全的产物
思考问题
- 怎样判定对随机样本的一次数据拟合是更优的?
- 是否存在一种”最优”的拟合方法?
- 如何评估样本回归对总体回归的逼近程度?
5.3 OLS方法与参数估计
普通最小二乘法(OLS)
基本概念
总体回归模型(PRM): \[ \begin{align} Y_i &= \beta_1 +\beta_2X_i + u_i \end{align} \]
样本回归模型(SRM): \[ \begin{align} Y_i &= \hat{\beta}_1 + \hat{\beta}_2X_i +e_i \end{align} \]
OLS基本原理
OLS的基本原理:残差平方和最小化。
\[ \begin{align} e_i &= Y_i - \hat{Y}_i \\ &= Y_i - (\hat{\beta}_1 +\hat{\beta}_2X_i) \end{align} \]
\[ \begin{align} Q &= \sum{e_i^2} \\ &= \sum{(Y_i - \hat{Y}_i)^2} \\ &= \sum{\left( Y_i - (\hat{\beta}_1 +\hat{\beta}_2X_i) \right)^2} \\ &\equiv f(\hat{\beta}_1,\hat{\beta}_2) \end{align} \]
\[ \begin{align} Min(Q) &= Min \left ( f(\hat{\beta}_1,\hat{\beta}_2) \right) \end{align} \]
参数估计
回归参数的OLS点估计
正规方程组:
\[ \begin{align} \left \{ \begin{split} \sum{Y_i} - n\hat{\beta}_1- (\sum{X_i})\hat{\beta}_2 &=0 \\ \sum{X_iY_i}-(\sum{X_i})\hat{\beta}_1 - (\sum{X_i^2})\hat{\beta}_2 &=0 \end{split} \right. \end{align} \]
回归系数的计算公式1(Favorite Five,FF):
\[ \begin{align} \left \{ \begin{split} \hat{\beta}_2 &=\frac{n\sum{X_iY_i}-\sum{X_i}\sum{Y_i}}{n\sum{X_i^2}-\left ( \sum{X_i} \right)^2}\\ \hat{\beta}_1 &=\frac{n\sum{X_i^2Y_i}-\sum{X_i}\sum{X_iY_i}}{n\sum{X_i^2}-\left ( \sum{X_i} \right)^2} \end{split} \right. &&\text{(FF solution)} \end{align} \]
回归参数的OLS点估计(离差形式)
离差公式(favorite five,ff):
\[ \begin{align} \left \{ \begin{split} \hat{\beta}_2 &=\frac{\sum{x_iy_i}}{\sum{x_i^2}}\\ \hat{\beta}_1 &=\bar{Y}_i-\hat{\beta}_2\bar{X}_i \end{split} \right. && \text{(ff solution)} \end{align} \]
其中离差计算: \(x_i=X_i-\bar{X};\ y_i=Y_i - \bar{Y}\)。
随机干扰项参数的OLS点估计
回归误差方差:
\[ \begin{align} \hat{\sigma}^2=\frac{\sum{e_i^2}}{n-2} \end{align} \]
回归误差标准差:
\[ \begin{align} \hat{\sigma}=\sqrt{\frac{\sum{e_i^2}}{n-2}} \end{align} \]
SRF和SRM的特征
基本特征
- 样本回归线一定会经过样本均值点\((\bar{X}, \bar{Y})\):
\[ \begin{align} \bar{Y} = \hat{\beta}_1 +\hat{\beta}_2\bar{X} \end{align} \]
- \(Y_i\)的估计值\(\hat{Y}_i\)的均值等于Y的样本均值:
\[ \begin{align} \bar{\hat{Y_i}} = \bar{Y} \end{align} \]
- 残差的均值\(\bar{e_i}\)为零:
\[ \begin{align} \sum{e_i} &=0 \\ \bar{e_i} &=0 \end{align} \]
离差形式
SRM的离差形式:
\[ \begin{align} y_i=\hat{\beta_2}x_i +e_i \ &&\text{(SRM-dev)} \end{align} \]
SRF的离差形式:
\[ \begin{align} \hat{y}_i=\hat{\beta_2}x_i \ &&\text{(SRF-dev)} \end{align} \]
估计精度
斜率系数的方差
总体方差和标准差:
\[ \begin{align} Var(\hat{\beta}_2) \equiv \sigma_{\hat{\beta}_2}^2 & =\frac{\sigma^2}{\sum{x_i^2}} \\ \sigma_{\hat{\beta}_2} &=\sqrt{\frac{\sigma^2}{\sum{x_i^2}}} \end{align} \]
样本方差和标准差:
\[ \begin{align} S_{\hat{\beta}_2}^2 &=\frac{\hat{\sigma}^2}{\sum{x_i^2}} \\ S_{\hat{\beta}_2} &=\sqrt{\frac{\hat{\sigma}^2}{\sum{x_i^2}}} \end{align} \]
截距系数的方差
总体方差和标准差:
\[ \begin{align} Var(\hat{\beta}_1) \equiv \sigma_{\hat{\beta}_1}^2 &=\frac{\sum{X_i^2}}{n} \cdot \frac{\sigma^2}{\sum{x_i^2}} \\ \sigma_{\hat{\beta}_1} & =\sqrt{\frac{\sum{X_i^2}}{n} \cdot \frac{\sigma^2}{\sum{x_i^2}}} \end{align} \]
样本方差和标准差:
\[ \begin{align} S_{\hat{\beta}_1}^2 &=\frac{\sum{X^2_i}}{n} \cdot \frac{\hat{\sigma}^2}{\sum{x_i^2}} \\ S_{\hat{\beta}_1} &=\sqrt{\frac{\sum{X^2_i}}{n} \cdot \frac{\hat{\sigma}^2}{\sum{x_i^2}}} \end{align} \]
区间估计
斜率系数的置信区间
\[ \begin{align} \left[ \hat{\beta}_{2} - t_{\alpha / 2} \cdot S_{\hat{\beta}_{2}}, \quad \hat{\beta}_{2} + t_{\alpha / 2} \cdot S_{\hat{\beta}_{2}} \right] \end{align} \]
截距系数的置信区间
\[ \begin{align} \left[ \hat{\beta}_{1} - t_{\alpha / 2} \cdot S_{\hat{\beta}_{1}}, \quad \hat{\beta}_{1} + t_{\alpha / 2} \cdot S_{\hat{\beta}_{1}} \right] \end{align} \]
随机干扰项方差的置信区间
\[ \begin{align} \left[ (n-2) \frac{\hat{\sigma}^{2}}{\chi_{1-\alpha/2}^{2}}, \quad (n-2) \frac{\hat{\sigma}^{2}}{\chi_{\alpha / 2}^{2}}\right] \end{align} \]
重要注意事项
估计量性质
- OLS估计量是纯粹由可观测的样本量(X和Y)表达的,因此容易计算
- 它们是点估计量,即对于给定样本,每个估计量仅提供有关总体参数的一个值
- 一旦从样本数据得到OLS估计值,便容易画出样本回归线
估计精度影响因素
- 样本量大小
- 自变量变异程度
- 随机干扰项方差
- 模型设定形式
区间估计要点
- 置信区间的宽度反映估计的精确度
- 置信水平的选择影响区间宽度
- 样本量越大,区间越窄
- 随机干扰项方差越小,区间越窄
5.4 经典假设与OLS性质
经典线性回归模型(CLRM)假设
关于模型的假设
CLRM假设1(模型是正确设置的):模型设定正确,这是一切计量分析问题的根本来源。
CLRM假设2(模型是参数线性的):模型应该是参数线性的,具体而言模型中参数和随机干扰项必须线性,变量可以不是线性。
\[ Y_i = \beta_1 + \beta_2X_i + u_i \]
关于自变量X的假设
CLRM假设3(自变量X是外生的):X是固定的(给定的)或独立于误差项。也即自变量X不是随机变量。
\[ \begin{align} Cov(X_i, u_i) &= 0\\ E(u_i|X_i) &= 0 \end{align} \]
关于随机干扰项的假设
CLRM假设4(随机干扰项条件期望值为零):给定\(X_i\)的情形下,随机干扰项\(u_i\)的条件期望为零。
\[ E(u|X_i)= 0 \]
CLRM假设5(随机干扰项的方差为同方差):给定\(X_i\)的情形下,随机干扰项\(u_i\)的方差处处相等。
\[ \begin{align} Var(u_i|X_i) & = E \left[ \left( u_i -E(u_i) \right)^2|X_i \right] \\ & = E(u_i^2|X_i) \\ & = E(u_i^2) \\ & \equiv \sigma^2 \end{align} \]
CLRM假设6(随机干扰项之间无自相关):给定两个不同的自变量取值情形下,随机干扰项\(u_i,u_j\)的相关系数为0。
\[ \begin{align} Cov(u_i, u_j|X_i,X_j) & = E \left[ \left( u_i -E(u_i) \right)\left( u_i -E(u_i) \right) \right] \\ & = E(u_iu_j) \\ & \equiv 0 \end{align} \]
关于样本数的要求
CLRM假设7(观测样本数假设):观测次数n,要大于待估计参数个数。
OLS估计量的性质
高斯-马尔可夫定理
高斯-马尔可夫定理:在给定经典线性回归模型(CLRM)的假定下,最小二乘(OLS)估计量是最优线性无偏估计量(BLUE)。
线性性
线性性(Linearity):是指\(\hat{\beta}_2\)和\(\hat{\beta}_1\)对\(Y_i\)是线性的。
\[ \begin{align} \hat{\beta}_2 & = \sum{k_iY_i} && \leftarrow \left[ k_i =\frac{x_i}{\sum{x_i^2}} \right] \\ \hat{\beta_1} & = \sum{w_iY_i} && \leftarrow \left[ w_i = \frac{1}{n} - k_i\bar{X} \right] \end{align} \]
无偏性
无偏性(Unbias):估计量期望值等于参数的真值。
\[ \begin{align} E(\hat{\beta}_2) &= \beta_2 \\ E(\hat{\beta}_1) &= \beta_1 \end{align} \]
方差最小性
方差最小性(Best):在所有线性无偏估计量中,方差为最小。
\[ \begin{align} Var(\hat{\beta}_2) \equiv \sigma_{\hat{\beta}_2}^2 &=\frac{\sigma^2}{\sum{x_i^2}} \\ Var(\hat{\beta}_1) \equiv \sigma_{\hat{\beta}_1}^2 &=\frac{\sum{X_i^2}}{n} \cdot \frac{\sigma^2}{\sum{x_i^2}} \end{align} \]
经典正态线性回归模型(N-CLRM)
N-CLRM假设
在CLRM假设基础上增加干扰项\(u_i\)服从正态性的假设:
\[ u_i \sim iid. \ N(0, \sigma^2) \]
其中,iid表示独立同分布(Independent Identical Distribution)。
N-CLRM假设下OLS估计量的性质
- 无偏性
- 有效性(方差最小)
- 一致性(收敛到它们的总体参数上)
- 估计量\(\hat{\beta}_2\)和\(\hat{\beta}_1\)服从正态分布
- 随机变量\(Z_2\)和\(Z_1\)服从标准正态分布
- \(X \equiv (n-2)\hat{\sigma^2}/\sigma^2\)服从自由度为\((n-2)\)的卡方分布
- 随机变量\((\hat{\beta}_2, \hat{\beta}_1)\)的分布独立于随机变量\(\hat{\sigma}^2\)
- 估计量\((\hat{\beta}_2, \hat{\beta}_1)\)是最优无偏估计量(BUE)
重要注意事项
- CLRM假设的重要性:
- 为”从样本推断总体”提供理论基础
- 确保OLS估计量的BLUE性质
- 为后续的统计推断提供基础
- 假设的现实性:
- 许多假设在现实中可能不完全满足
- 需要根据实际情况适当放宽或调整假设
- 违背假设可能影响估计量的性质
- 正态性假设的作用:
- 为参数估计量的分布提供理论基础
- 为构造t统计量、F统计量等提供基础
- 在实际应用中,中心极限定理和大数定理可以保证估计的有效性
5.5 假设检验
假设检验的基本原理
假设检验的概念
假设检验(Hypothesis Testing):通过制定一套步骤和规则,决定接受或拒绝一个虚拟假设(原假设)。
- 虚拟假设(null hypothesis) \(H_0\):指定或声称的假设,如\(H_0: \beta_2 = 0\)
- 备择假设(alter hypothesis) \(H_1\):
- 简单备择假设:\(H_1: \beta_2 = 1.5\)
- 复合备择假设:\(H_1: \beta_2 \neq 1.5\)
假设检验的方法
- 置信区间检验(confidence interval)
- 显著性检验(test of significance)
置信区间检验法
双侧检验
对于假设:
\[ H_0: \beta_2 =0; \quad H_1: \beta_2 \neq 0 \]
决策规则: 1. 构造\(\beta_2\)的\(100(1-\alpha)\%\)置信区间 2. 如果\(\beta_2\)在\(H_0\)假设下落入此区间,就不拒绝\(H_0\) 3. 如果它落在此区间之外,就要拒绝\(H_0\)
显著性检验法
检验步骤
- 找到合适的检验统计量(如t统计量、\(\chi^2\)统计量、F统计量等)
- 知道该统计量在\(H_0\)下的抽样分布
- 计算样本统计量的值
- 查表找出给定显著性水平\(\alpha\)下的临界值
- 比较样本统计量值和临界值
- 做出拒绝还是接受\(H_0\)的判断
显著性水平与显著性概率
- 显著性水平\(\alpha\):通常固定在0.01、0.05、0.1水平
- 显著性概率p值:对给定的样本算出的检验统计量对应的概率
回归系数的t检验
截距参数的t检验
- 提出假设:
\[ H_0: \beta_1 =0; \quad H_1: \beta_1 \neq 0 \]
- 构造检验统计量:
\[ T=\frac{\hat{\beta}_{1}-\beta_{1}}{S_{\hat{\beta}_{1}}} \sim t(n-2) \]
- 计算样本统计量:
\[ t^{\ast}_{\hat{\beta}_1}=\frac{\hat{\beta}_{1}}{S_{\hat{\beta}_{1}}} \]
斜率参数的t检验
- 提出假设:
\[ H_0: \beta_2 =0; \quad H_1: \beta_2 \neq 0 \]
- 构造检验统计量:
\[ T=\frac{\hat{\beta}_{2}-\beta_{2}}{{S_{\beta_{2}}}} \sim t(n-2) \]
- 计算样本统计量:
\[ t^{\ast}_{\hat{\beta}_2}=\frac{\hat{\beta}_{2}}{S_{\hat{\beta}_{2}}} \]
方差分解(ANOVA)
Y变异的分解
\[ \begin{alignedat}{2} &&(Y_i - \bar{Y}) &&= (\hat{Y}_i - \bar{Y}) &&+ (Y_i - \hat{Y}_i ) \\ &&y_i &&= \hat{y}_i &&+ e_i \end{alignedat} \]
平方和分解
\[ \begin{alignedat}{2} &&\sum{y_i^2} &&= \sum{\hat{y}_i^2} &&+ \sum{e_i^2} \\ &&TSS &&=ESS &&+RSS \end{alignedat} \]
其中: - \(TSS\):总离差平方和 - \(ESS\):回归平方和 - \(RSS\):残差平方和
模型整体显著性F检验
F检验步骤
- 提出假设:
\[ H_0: \beta_2 =0; \quad H_1: \beta_2 \neq 0 \]
- 构造检验统计量:
\[ F = \frac{\left(\hat{\beta}_{2}-\beta_{2}\right)^{2} \sum x_{i}^{2}}{\sum e_{i}^{2} /(n-2)} \sim F(1,n-2) \]
- 计算样本统计量:
\[ F^{\ast} = \frac{ESS / df_{ESS}}{RSS / df_{RSS}} = \frac{MSS_{ESS}}{MSS_{RSS}} \]
F检验与t检验的比较
联系: - 在一元回归模型中,t检验与F检验的结论总是一致的 - 对于检验斜率参数\(\beta_2\)的显著性,两者可相互替代 - 在一元回归分析中,若假设\(H_0:\beta_2=0\),则\(F^{\ast} \simeq (t^{\ast})^2\)
不同: 1. 检验目的不同: - F检验:检验模型的整体显著性 - t检验:检验各个回归参数的显著性 2. 假设的提出不同 3. 检验原理不同
重要注意事项
- 统计显著性与实际显著性:
- 不能一味追求统计显著性
- 需要考虑”实际显著性”的现实意义
- 置信区间方法与显著性检验方法的选择:
- 一般来说,置信区间方法优于显著性检验方法
- 置信区间方法能提供更多信息
- 假设检验的局限性:
- 显著性水平的选择具有主观性
- 样本量会影响检验结果
- 需要结合实际情况进行判断
5.6 拟合优度与残差分析
拟合优度
基本概念
拟合优度(Goodness of fit):度量样本回归线对一组数据拟合优劣水平。
判定系数(coefficient of determination):一种利用平方和分解,考察样本回归线对数据拟合效果的总度量。
- 一元回归中,一般记为\(r^2\)
- 多元回归中,一般记为\(R^2\)
判定系数的计算
判定系数\(r^2\)计算公式1:
\[ \begin{align} r^2 &=\frac{ESS}{TSS} \\ &= \frac{\sum{(\hat{Y}_i - \bar{Y})^2}}{\sum{(Y_i - \bar{Y})^2}} \end{align} \]
判定系数\(r^2\)计算公式2:
\[ \begin{align} r^2 &=1- \frac{RSS}{TSS} \\ &= 1- \frac{\sum{e_i^2}}{\sum{(Y_i - \bar{Y})^2}} \end{align} \]
判定系数\(r^2\)计算公式3:
\[ \begin{align} r^2 &=\frac{ESS}{TSS} \\ &= \frac{\sum{\hat{y}_i^2}}{\sum{y_i^2}} \\ &= \frac{\sum{(\hat{\beta}_2x_i)^2}}{\sum{y_i^2}} \\ &= \hat{\beta}_2^2\frac{\sum{x_i^2}}{\sum{y_i^2}} \\ &= \hat{\beta}_2^2 \frac{S_{X_i}^2}{S_{Y_i}^2} \end{align} \]
判定系数\(r^2\)计算公式4:
\[ \begin{align} r^2 &= \hat{\beta}_2^2 \cdot \frac{\sum{x_i^2}}{\sum{y_i^2}} \\ &= \left( \frac{\sum{x_iy_i}}{\sum{x_i^2}} \right)^2 \cdot \left( \frac{\sum{x_i^2}}{\sum{y_i^2}} \right) \\ &= \frac{(\sum{x_iy_i})^2}{\sum{x_i^2 }\sum{y_i^2}} \end{align} \]
判定系数的性质
- \(r^2\)是一个非负量
- \(0 \leq r^2 \leq 1\)
- \(r^2 = 0\):表示回归线完全不能解释Y的变异
- \(r^2 = 1\):表示回归线完全解释了Y的变异
判定系数与相关系数的关系
总体相关系数:
\[ \begin{align} \rho &=\frac{Cov(X,Y)}{\sqrt{Var(X_i)Var(Y_i)}} \\ &=\frac{E(X_i-EX)(Y_i-EY)}{\sqrt{E(X_i-EX)^2E(Y_i-EY)^2}} \end{align} \]
样本相关系数:
\[ \begin{align} r &=\frac{S_{XY}^2}{S_X\ast S_Y} \\ &=\frac{\sum{(X_i-\bar{X})(Y_i-\bar{Y})}}{\sqrt{\sum{(X_i-\bar{X}})^2\sum{(Y_i-\bar{Y})^2}}} \\ &= \frac{\sum{x_iy_i}}{\sqrt{\sum{x_i^2 }\sum{y_i^2}}} \end{align} \]
联系与区别:
- 在一元回归中,判定系数\(r^2\)等于样本相关系数\(r\)的平方
- 判定系数\(r^2\)表明因变量变异由解释变量所解释的比例
- 相关系数\(r\)只能表明变量间的线性关联强度
- 在多元回归中,这种区别会更加凸显
残差分析
残差的定义与作用
残差(residual):是因变量的观测值与根据估计的回归方程求出的估计值之差,用\(e_i\)表示。
\[ \begin{align} e_i = Y_i - \hat{Y_i} \end{align} \]
残差分析的主要目的: 1. 反映用估计的回归方程去预测而引起的误差 2. 可用于确定有关随机干扰项\(\mu_i\)的假定是否成立 3. 用于检测有影响的观测值
标准化残差
皮尔逊标准化残差(Pearson residual):
\[ \begin{align} e_{i, sd}^{\ast} &= \frac{e_i}{s_{e_i}} \\ &= \frac{(Y_i - \hat{Y_i})}{\sqrt{\frac{\sum{(e_i-\bar{e})^2}}{n-1}}} \end{align} \]
学生化标准残差(Studentized Residuals):
\[ \begin{align} e_{i,st}^{\ast} &= \frac{e_i}{\sqrt{MSE_{(i)}(1-h_{ii})}} \end{align} \]
或
\[ \begin{align} e_{i,st}^{\ast} &= e_{i, sd}^{\ast}\left( \frac{n-m-2}{n-m-1-e_{i, sd}^{\ast 2}}\right)^2 \end{align} \]
其中: - \(MSE_{(i)}\):删除第\(i\)个观测值进行建模的均方误差 - \(h_{ii}\):删除第\(i\)个观测值进行建模的第\(i\)个影响权重 - \(m=k-1\):回归元个数
残差图分析
残差图(residual plot):用于呈现残差数据\(e_i\)的分布情况的统计图图形,主要包括:
- 关于\(X_i\)的残差散点图
- 关于\(Y_i\)的残差散点图(或关于\(\hat{Y_i}\))
- 关于样本序号的残差散点图或标准化残差散点图
重要注意事项
- 拟合优度的理解:
- 即使采用OLS方法,对样本数据的拟合也是不完全的
- 实际数据点在样本回归线附近,而不是在样本回归线上
- 样本点行为的”变异”可划分为”回归”能解释的部分和”随机”的部分
- 残差分析的重要性:
- 残差分析是检验模型假设是否成立的重要手段
- 标准化残差可以帮助识别异常值和有影响的观测值
- 残差图可以直观地展示模型的拟合效果和潜在问题
- 模型诊断的综合性:
- 不能仅依赖单一指标判断模型的好坏
- 需要结合拟合优度、残差分析等多种方法
- 考虑统计显著性的同时,也要关注实际意义
5.7 回归预测分析
回归预测的基本概念
两类预测
一元回归模型下:
\[ \begin{align} Y_i = \beta_1 + \beta_2X_i +u_i \end{align} \]
均值预测(mean prediction): - 给定\(X_0\),预测Y的条件均值\(E(Y|X=X_0)\)
个值预测(individual prediction): - 给定\(X_0\),预测对应于\(X_0\)的Y的个别值\((Y_0|X_0)\)
预测分析的关键
样本外拟合值\(\hat{Y}_0|X=X_0\)的性质: - 是均值\(E(Y|X=X_0)\)的一个BLUE - 是个值\((Y_0|X_0)\)的一个BLUE
均值预测
均值预测的分布
在N-CLRM假设和OLS方法下,给定\(X_0\)下的拟合值\(\hat{Y}_0\)服从如下正态分布:
\[ \begin{align} \hat{Y}_{0} &\sim \mathrm{N}\left(\mu_{\hat{Y}_{0}}, \sigma_{\hat{Y}_{0}}^{2}\right) \\ \mu_{\hat{Y}_{0}} &= E\left(\hat{Y}_{0}\right) = E\left(\hat{\beta}_{1}+\hat{\beta}_{2} X_{0}\right) = \beta_{1}+\beta_{2} X_{0} = E(Y | X_{0}) \\ \operatorname{var}\left(\hat{Y}_{0}\right) &= \sigma_{\hat{Y}_{0}}^{2} = \sigma^{2}\left[\frac{1}{n}+\frac{\left(X_{0}-\overline{X}\right)^{2}}{\sum x_{i}^{2}}\right] \end{align} \]
均值预测的置信区间
构造t统计量:
\[ \begin{align} T &= \frac{\hat{Y}_{0}-\mathrm{E}(\mathrm{Y} | \mathrm{X}_{0})}{S_{\hat{Y}_{0}}} \sim t(n-2) \\ S_{\hat{Y}_{0}} &= \sqrt{\hat{\sigma}^{2}\left[\frac{1}{n}+\frac{\left(X_{0}-\overline{X}\right)^{2}}{\sum x_{i}^{2}}\right]} \end{align} \]
均值\(E(Y|X=X_0)\)的置信区间:
\[ \begin{align} \operatorname{Pr}\left[\hat{Y}_{0}-t_{1-\alpha / 2}(n-2) \cdot S_{\hat{Y}_{0}} \leq E(Y | X_{0}) \leq \hat{Y}_{0}+t_{1-\alpha / 2}(n-2) \cdot S_{\hat{Y}_{0}}\right] = 1-\alpha \end{align} \]
个值预测
个值预测的分布
在N-CLRM假设和OLS方法下,给定\(X_0\)下的个别值\(Y_0\)服从如下正态分布:
\[ \begin{align} Y_{0} &\sim \mathrm{N}\left(\mu_{Y_{0}}, \sigma_{Y_{0}}^{2}\right) \\ \mu_{Y_{0}} &= E\left(Y_{0}\right) = E\left(\beta_{1}+\beta_{2} X_{0}\right) = \beta_{1}+\beta_{2} X_{0} \\ Var(Y_{0}) &= Var{(u_0)} = \sigma^{2} \end{align} \]
个值预测的置信区间
构造新的随机变量\((Y_0-\hat{Y}_0)\)的分布:
\[ \begin{align} Y_{0} - \hat{Y}_{0} &\sim N\left( 0, \sigma^{2}\left[1 + \frac{1}{n}+\frac{\left(X_{0}-\overline{X}\right)^{2}}{\sum x_{i}^{2}}\right]\right) \\ Y_{0} - \hat{Y}_{0} &\sim N\left( 0, \sigma^{2}_{Y_{0} - \hat{Y}_{0}} \right) \end{align} \]
构造t统计量:
\[ \begin{align} T &= \frac{(Y_{0} - \hat{Y}_{0})}{S_{(Y_{0} - \hat{Y}_{0})}} \sim t(n-2) \\ S_{(Y_{0} - \hat{Y}_{0})} &= \sqrt{\hat{\sigma}^{2}\left[1+\frac{1}{n}+\frac{\left(X_{0}-\overline{X}\right)^{2}}{\sum x_{i}^{2}}\right]} \end{align} \]
个值\(Y_{0}\)的置信区间:
\[ \begin{align} \operatorname{Pr}\left[\hat{Y}_{0}-t_{1-\alpha / 2}(n-2) \cdot S_{(Y_{0} - \hat{Y}_{0})} \leq Y_{0} \leq \hat{Y}_{0}+t_{1-\alpha / 2}(n-2) \cdot S_{(Y_{0} - \hat{Y}_{0})}\right] = 1-\alpha \end{align} \]
置信带
置信带的概念
置信带(confidence interval):对所有的X值,分别进行均值和个值预测,得到:
- 均值预测的置信带——总体回归函数的置信带
- 个值预测的置信带
置信带的特点
- 均值预测比个值预测更准确(置信带更窄)
- 置信带在中心点\((\bar{X}, \bar{Y})\)处最窄
- 样本内置信带用于检验可靠性
- 样本外置信带用于预测未来值范围
重要注意事项
- 回归预测的基础:
- 基于OLS估计方法
- 基于CLRM假设
- 基于BLUE估计性质
- 预测的可信度:
- 均值预测比个值预测更准确
- 置信带宽度反映预测的不确定性
- 置信度越高,置信带越宽
- 预测的局限性:
- 预测结果依赖于模型假设的合理性
- 预测精度受样本量和数据质量影响
- 预测范围受解释变量取值范围的限制
5.8 回归报告解读
回归报告的基本形式
课程要求
- 熟练、正确阅读统计软件给出的各类分析报告
- 理解报告中的关键信息和内涵
- 掌握不同统计软件(如Stata、EViews、R、Excel等)的回归分析报告解读
一元回归模型
\[ \begin{align} Y_i = \beta_1 + \beta_2X_i +u_i \end{align} \]
回归报告的呈现形式
多行方程表达法
形式1:多行方程表达法(精炼报告):
\[ \begin{align} \hat{Y}_i &= \hat{\beta}_1 + \hat{\beta}_2X_i \\ (t) &= (t_1) \quad (t_2) \\ (se) &= (se_1) \quad (se_2) \\ (fitness) &= R^2 = \ldots; \quad \bar{R}^2 = \ldots; \quad F = \ldots; \quad p = \ldots \end{align} \]
表格列示法
形式2:表格列示法(精炼报告):
term | estimate | std.error | statistic | p.value |
---|---|---|---|---|
(Intercept) | \(\hat{\beta}_1\) | \(se_1\) | \(t_1\) | \(p_1\) |
X | \(\hat{\beta}_2\) | \(se_2\) | \(t_2\) | \(p_2\) |
统计软件报告解读
Excel软件报告
形式3:原始报告包含以下部分:
- 参数估计结果
- 回归系数
- 标准误差
- t统计量
- P值
- 置信区间
- 拟合优度信息
- 判定系数\(R^2\)
- 调整判定系数\(\bar{R}^2\)
- 标准误差
- 方差分解(ANOVA表)
- 回归平方和
- 残差平方和
- 总平方和
- 自由度
- F统计量
- 残差分析
- 残差表
- 残差图
EViews软件报告
形式3:原始报告包含以下部分:
- 抬头区域
- Dependent Variable:因变量
- Method:分析方法
- Date/Time:分析时间
- Sample:样本范围
- Included observations:样本数
- 三线表区域
- Variable:模型变量
- Coefficient:回归系数
- Std. Error:标准误差
- t-Statistic:t统计量
- Prob.:概率值
- 指标值区域
- R-squared:判定系数
- Adjusted R-squared:调整判定系数
- S.E. of regression:回归误差标准差
- Sum squared resid:残差平方和
- Log likelihood:对数似然值
- F-statistic:F统计量
- Prob(F-statistic):F统计量概率值
R软件报告
形式4:原始报告包含: - 回归系数估计 - 标准误差 - t统计量 - P值 - 拟合优度指标 - 方差分析表
重要注意事项
报告解读要点
- 关注回归系数的经济含义
- 重视统计显著性检验结果
- 注意模型整体拟合优度
- 检查残差分析结果
软件操作要求
- 熟练掌握Excel回归分析操作步骤
- 理解不同软件报告格式的异同
- 能够正确提取和解读关键信息
报告应用建议
- 根据研究目的选择合适的报告形式
- 注意报告内容的完整性和准确性
- 结合经济理论和统计检验结果进行综合分析