第05章相关和回归分析

5.1 变量间关系的度量

变量间的关系类型

函数关系

定义：两个变量之间存在一一对应的确定关系
数学表达：\(Y = f(X)\)，其中\(X\)为自变量，\(Y\)为因变量
特点：
- 变量间关系是确定的
- 从几何学角度看，数据集各观测点会落在一条曲线上
示例：
- 商品销售额\(Y\)与销售量\(X\)的关系：\(Y_i = P_i\cdot X_i\)
- 圆的面积\(S\)与半径\(R\)的关系：\(S = \pi R^2\)

随机干扰项\(u_i\)：
- 定义：\(u_i = Y_i - E(Y|X_i)\)
- 来源：
  1. 理论的含糊性
  2. 数据的不充分
  3. 其他变量的影响
  4. 人类行为的内在随机性
  5. 测量误差
  6. 节省原则
  7. 错误的函数形式

样本回归分析

样本回归线（SRL）

定义：通过拟合样本数据得到的一条曲线（或直线）
特点：
- 由拟合值\(\hat{Y}_i\)连接而成
- \(\hat{Y}_i\)是对条件期望值\(Y|X_i\)的拟合
- 可以通过不同方法拟合（如OLS）

样本回归函数（SRF）

线性形式：

\[ \begin{align} \hat{Y}_i = \hat{\beta}_1 + \hat{\beta}_2X_i \end{align} \]

与PRF的关系：
- \(\hat{Y}_i\)是对\(E(Y|X_i)\)的估计量
- \(\hat{\beta}_1\)是对\(\beta_1\)的估计量
- \(\hat{\beta}_2\)是对\(\beta_2\)的估计量

样本回归模型（SRM）

隐函数形式：

\[ \begin{align} Y_i = g(X_i) + e_i \end{align} \]

线性形式：

\[ \begin{align} Y_i = \hat{\beta}_1 + \hat{\beta}_2X_i + e_i &&\text{(SRM_L)} \end{align} \]

残差\(e_i\)：
- 定义：\(e_i = Y_i - \hat{Y}_i = Y_i - (\hat{\beta}_1 + \hat{\beta}_2X_i)\)
- 表示样本回归函数与Y的样本观测值之间的离差

总体回归与样本回归的比较

主要区别

总体回归：
- 基于总体数据
- 参数\(\beta_1,\beta_2\)是固定但未知的
- 随机干扰项\(u_i\)反映总体中的随机性
样本回归：
- 基于样本数据
- 参数\(\hat{\beta}_1,\hat{\beta}_2\)是估计值
- 残差\(e_i\)反映样本拟合的不完全性

重要结论

随机抽样数据继承了总体的特征
利用随机样本进行数据拟合是对总体规律的”反向追踪”
样本回归模型中的残差是拟合不完全的产物

思考问题

怎样判定对随机样本的一次数据拟合是更优的？
是否存在一种”最优”的拟合方法？
如何评估样本回归对总体回归的逼近程度？

5.3 OLS方法与参数估计

普通最小二乘法（OLS）

基本概念

总体回归模型（PRM）： \[ \begin{align} Y_i &= \beta_1 +\beta_2X_i + u_i \end{align} \]

样本回归模型（SRM）： \[ \begin{align} Y_i &= \hat{\beta}_1 + \hat{\beta}_2X_i +e_i \end{align} \]

OLS基本原理

OLS的基本原理：残差平方和最小化。

\[ \begin{align} e_i &= Y_i - \hat{Y}_i \\ &= Y_i - (\hat{\beta}_1 +\hat{\beta}_2X_i) \end{align} \]

\[ \begin{align} Q &= \sum{e_i^2} \\ &= \sum{(Y_i - \hat{Y}_i)^2} \\ &= \sum{\left( Y_i - (\hat{\beta}_1 +\hat{\beta}_2X_i) \right)^2} \\ &\equiv f(\hat{\beta}_1,\hat{\beta}_2) \end{align} \]

\[ \begin{align} Min(Q) &= Min \left ( f(\hat{\beta}_1,\hat{\beta}_2) \right) \end{align} \]

参数估计

回归参数的OLS点估计

正规方程组：

\[ \begin{align} \left \{ \begin{split} \sum{Y_i} - n\hat{\beta}_1- (\sum{X_i})\hat{\beta}_2 &=0 \\ \sum{X_iY_i}-(\sum{X_i})\hat{\beta}_1 - (\sum{X_i^2})\hat{\beta}_2 &=0 \end{split} \right. \end{align} \]

回归系数的计算公式1（Favorite Five，FF）：

\[ \begin{align} \left \{ \begin{split} \hat{\beta}_2 &=\frac{n\sum{X_iY_i}-\sum{X_i}\sum{Y_i}}{n\sum{X_i^2}-\left ( \sum{X_i} \right)^2}\\ \hat{\beta}_1 &=\frac{n\sum{X_i^2Y_i}-\sum{X_i}\sum{X_iY_i}}{n\sum{X_i^2}-\left ( \sum{X_i} \right)^2} \end{split} \right. &&\text{(FF solution)} \end{align} \]

回归参数的OLS点估计（离差形式）

离差公式（favorite five，ff）：

\[ \begin{align} \left \{ \begin{split} \hat{\beta}_2 &=\frac{\sum{x_iy_i}}{\sum{x_i^2}}\\ \hat{\beta}_1 &=\bar{Y}_i-\hat{\beta}_2\bar{X}_i \end{split} \right. && \text{(ff solution)} \end{align} \]

其中离差计算： \(x_i=X_i-\bar{X};\ y_i=Y_i - \bar{Y}\)。

随机干扰项参数的OLS点估计

回归误差方差：

\[ \begin{align} \hat{\sigma}^2=\frac{\sum{e_i^2}}{n-2} \end{align} \]

回归误差标准差：

\[ \begin{align} \hat{\sigma}=\sqrt{\frac{\sum{e_i^2}}{n-2}} \end{align} \]

SRF和SRM的特征

基本特征

样本回归线一定会经过样本均值点\((\bar{X}, \bar{Y})\)：

\[ \begin{align} \bar{Y} = \hat{\beta}_1 +\hat{\beta}_2\bar{X} \end{align} \]

\(Y_i\)的估计值\(\hat{Y}_i\)的均值等于Y的样本均值：

\[ \begin{align} \bar{\hat{Y_i}} = \bar{Y} \end{align} \]

残差的均值\(\bar{e_i}\)为零：

\[ \begin{align} \sum{e_i} &=0 \\ \bar{e_i} &=0 \end{align} \]

离差形式

SRM的离差形式：

\[ \begin{align} y_i=\hat{\beta_2}x_i +e_i \ &&\text{(SRM-dev)} \end{align} \]

SRF的离差形式：

\[ \begin{align} \hat{y}_i=\hat{\beta_2}x_i \ &&\text{(SRF-dev)} \end{align} \]

估计精度

斜率系数的方差

总体方差和标准差：

\[ \begin{align} Var(\hat{\beta}_2) \equiv \sigma_{\hat{\beta}_2}^2 & =\frac{\sigma^2}{\sum{x_i^2}} \\ \sigma_{\hat{\beta}_2} &=\sqrt{\frac{\sigma^2}{\sum{x_i^2}}} \end{align} \]

样本方差和标准差：

\[ \begin{align} S_{\hat{\beta}_2}^2 &=\frac{\hat{\sigma}^2}{\sum{x_i^2}} \\ S_{\hat{\beta}_2} &=\sqrt{\frac{\hat{\sigma}^2}{\sum{x_i^2}}} \end{align} \]

截距系数的方差

总体方差和标准差：

\[ \begin{align} Var(\hat{\beta}_1) \equiv \sigma_{\hat{\beta}_1}^2 &=\frac{\sum{X_i^2}}{n} \cdot \frac{\sigma^2}{\sum{x_i^2}} \\ \sigma_{\hat{\beta}_1} & =\sqrt{\frac{\sum{X_i^2}}{n} \cdot \frac{\sigma^2}{\sum{x_i^2}}} \end{align} \]

样本方差和标准差：

\[ \begin{align} S_{\hat{\beta}_1}^2 &=\frac{\sum{X^2_i}}{n} \cdot \frac{\hat{\sigma}^2}{\sum{x_i^2}} \\ S_{\hat{\beta}_1} &=\sqrt{\frac{\sum{X^2_i}}{n} \cdot \frac{\hat{\sigma}^2}{\sum{x_i^2}}} \end{align} \]

区间估计

斜率系数的置信区间

\[ \begin{align} \left[ \hat{\beta}_{2} - t_{\alpha / 2} \cdot S_{\hat{\beta}_{2}}, \quad \hat{\beta}_{2} + t_{\alpha / 2} \cdot S_{\hat{\beta}_{2}} \right] \end{align} \]

截距系数的置信区间

\[ \begin{align} \left[ \hat{\beta}_{1} - t_{\alpha / 2} \cdot S_{\hat{\beta}_{1}}, \quad \hat{\beta}_{1} + t_{\alpha / 2} \cdot S_{\hat{\beta}_{1}} \right] \end{align} \]

随机干扰项方差的置信区间

\[ \begin{align} \left[ (n-2) \frac{\hat{\sigma}^{2}}{\chi_{1-\alpha/2}^{2}}, \quad (n-2) \frac{\hat{\sigma}^{2}}{\chi_{\alpha / 2}^{2}}\right] \end{align} \]

重要注意事项

估计量性质

OLS估计量是纯粹由可观测的样本量(X和Y)表达的，因此容易计算
它们是点估计量，即对于给定样本，每个估计量仅提供有关总体参数的一个值
一旦从样本数据得到OLS估计值，便容易画出样本回归线

估计精度影响因素

样本量大小
自变量变异程度
随机干扰项方差
模型设定形式

区间估计要点

置信区间的宽度反映估计的精确度
置信水平的选择影响区间宽度
样本量越大，区间越窄
随机干扰项方差越小，区间越窄

5.4 经典假设与OLS性质

经典线性回归模型（CLRM）假设

关于模型的假设

CLRM假设1（模型是正确设置的）：模型设定正确，这是一切计量分析问题的根本来源。

CLRM假设2（模型是参数线性的）：模型应该是参数线性的，具体而言模型中参数和随机干扰项必须线性，变量可以不是线性。

\[ Y_i = \beta_1 + \beta_2X_i + u_i \]

关于自变量X的假设

CLRM假设3（自变量X是外生的）：X是固定的（给定的）或独立于误差项。也即自变量X不是随机变量。

\[ \begin{align} Cov(X_i, u_i) &= 0\\ E(u_i|X_i) &= 0 \end{align} \]

关于随机干扰项的假设

CLRM假设4（随机干扰项条件期望值为零）：给定\(X_i\)的情形下，随机干扰项\(u_i\)的条件期望为零。

\[ E(u|X_i)= 0 \]

CLRM假设5（随机干扰项的方差为同方差）：给定\(X_i\)的情形下，随机干扰项\(u_i\)的方差处处相等。

\[ \begin{align} Var(u_i|X_i) & = E \left[ \left( u_i -E(u_i) \right)^2|X_i \right] \\ & = E(u_i^2|X_i) \\ & = E(u_i^2) \\ & \equiv \sigma^2 \end{align} \]

CLRM假设6（随机干扰项之间无自相关）：给定两个不同的自变量取值情形下，随机干扰项\(u_i,u_j\)的相关系数为0。

\[ \begin{align} Cov(u_i, u_j|X_i,X_j) & = E \left[ \left( u_i -E(u_i) \right)\left( u_i -E(u_i) \right) \right] \\ & = E(u_iu_j) \\ & \equiv 0 \end{align} \]

关于样本数的要求

CLRM假设7（观测样本数假设）：观测次数n，要大于待估计参数个数。

OLS估计量的性质

高斯-马尔可夫定理

高斯-马尔可夫定理：在给定经典线性回归模型(CLRM)的假定下，最小二乘(OLS)估计量是最优线性无偏估计量(BLUE)。

线性性

线性性（Linearity）：是指\(\hat{\beta}_2\)和\(\hat{\beta}_1\)对\(Y_i\)是线性的。

\[ \begin{align} \hat{\beta}_2 & = \sum{k_iY_i} && \leftarrow \left[ k_i =\frac{x_i}{\sum{x_i^2}} \right] \\ \hat{\beta_1} & = \sum{w_iY_i} && \leftarrow \left[ w_i = \frac{1}{n} - k_i\bar{X} \right] \end{align} \]

无偏性

无偏性(Unbias)：估计量期望值等于参数的真值。

\[ \begin{align} E(\hat{\beta}_2) &= \beta_2 \\ E(\hat{\beta}_1) &= \beta_1 \end{align} \]

方差最小性

方差最小性（Best）：在所有线性无偏估计量中，方差为最小。

\[ \begin{align} Var(\hat{\beta}_2) \equiv \sigma_{\hat{\beta}_2}^2 &=\frac{\sigma^2}{\sum{x_i^2}} \\ Var(\hat{\beta}_1) \equiv \sigma_{\hat{\beta}_1}^2 &=\frac{\sum{X_i^2}}{n} \cdot \frac{\sigma^2}{\sum{x_i^2}} \end{align} \]

经典正态线性回归模型（N-CLRM）

N-CLRM假设

在CLRM假设基础上增加干扰项\(u_i\)服从正态性的假设：

\[ u_i \sim iid. \ N(0, \sigma^2) \]

其中，iid表示独立同分布(Independent Identical Distribution)。

N-CLRM假设下OLS估计量的性质

无偏性
有效性（方差最小）
一致性（收敛到它们的总体参数上）
估计量\(\hat{\beta}_2\)和\(\hat{\beta}_1\)服从正态分布
随机变量\(Z_2\)和\(Z_1\)服从标准正态分布
\(X \equiv (n-2)\hat{\sigma^2}/\sigma^2\)服从自由度为\((n-2)\)的卡方分布
随机变量\((\hat{\beta}_2, \hat{\beta}_1)\)的分布独立于随机变量\(\hat{\sigma}^2\)
估计量\((\hat{\beta}_2, \hat{\beta}_1)\)是最优无偏估计量（BUE）

重要注意事项

CLRM假设的重要性：
- 为”从样本推断总体”提供理论基础
- 确保OLS估计量的BLUE性质
- 为后续的统计推断提供基础
假设的现实性：
- 许多假设在现实中可能不完全满足
- 需要根据实际情况适当放宽或调整假设
- 违背假设可能影响估计量的性质
正态性假设的作用：
- 为参数估计量的分布提供理论基础
- 为构造t统计量、F统计量等提供基础
- 在实际应用中，中心极限定理和大数定理可以保证估计的有效性

5.5 假设检验

假设检验的基本原理

假设检验的概念

假设检验（Hypothesis Testing）：通过制定一套步骤和规则，决定接受或拒绝一个虚拟假设（原假设）。

虚拟假设(null hypothesis) \(H_0\)：指定或声称的假设，如\(H_0: \beta_2 = 0\)
备择假设(alter hypothesis) \(H_1\)：
- 简单备择假设：\(H_1: \beta_2 = 1.5\)
- 复合备择假设：\(H_1: \beta_2 \neq 1.5\)

假设检验的方法

置信区间检验（confidence interval）
显著性检验（test of significance）

置信区间检验法

双侧检验

对于假设：

\[ H_0: \beta_2 =0; \quad H_1: \beta_2 \neq 0 \]

决策规则： 1. 构造\(\beta_2\)的\(100(1-\alpha)\%\)置信区间 2. 如果\(\beta_2\)在\(H_0\)假设下落入此区间，就不拒绝\(H_0\) 3. 如果它落在此区间之外，就要拒绝\(H_0\)

显著性检验法

检验步骤

找到合适的检验统计量（如t统计量、\(\chi^2\)统计量、F统计量等）
知道该统计量在\(H_0\)下的抽样分布
计算样本统计量的值
查表找出给定显著性水平\(\alpha\)下的临界值
比较样本统计量值和临界值
做出拒绝还是接受\(H_0\)的判断

显著性水平与显著性概率

显著性水平\(\alpha\)：通常固定在0.01、0.05、0.1水平
显著性概率p值：对给定的样本算出的检验统计量对应的概率

回归系数的t检验

截距参数的t检验

提出假设：

\[ H_0: \beta_1 =0; \quad H_1: \beta_1 \neq 0 \]

构造检验统计量：

\[ T=\frac{\hat{\beta}_{1}-\beta_{1}}{S_{\hat{\beta}_{1}}} \sim t(n-2) \]

计算样本统计量：

\[ t^{\ast}_{\hat{\beta}_1}=\frac{\hat{\beta}_{1}}{S_{\hat{\beta}_{1}}} \]

斜率参数的t检验

提出假设：

\[ H_0: \beta_2 =0; \quad H_1: \beta_2 \neq 0 \]

构造检验统计量：

\[ T=\frac{\hat{\beta}_{2}-\beta_{2}}{{S_{\beta_{2}}}} \sim t(n-2) \]

计算样本统计量：

\[ t^{\ast}_{\hat{\beta}_2}=\frac{\hat{\beta}_{2}}{S_{\hat{\beta}_{2}}} \]

方差分解（ANOVA）

Y变异的分解

\[ \begin{alignedat}{2} &&(Y_i - \bar{Y}) &&= (\hat{Y}_i - \bar{Y}) &&+ (Y_i - \hat{Y}_i ) \\ &&y_i &&= \hat{y}_i &&+ e_i \end{alignedat} \]

平方和分解

\[ \begin{alignedat}{2} &&\sum{y_i^2} &&= \sum{\hat{y}_i^2} &&+ \sum{e_i^2} \\ &&TSS &&=ESS &&+RSS \end{alignedat} \]

其中： - \(TSS\)：总离差平方和 - \(ESS\)：回归平方和 - \(RSS\)：残差平方和

模型整体显著性F检验

F检验步骤

提出假设：

\[ H_0: \beta_2 =0; \quad H_1: \beta_2 \neq 0 \]

构造检验统计量：

\[ F = \frac{\left(\hat{\beta}_{2}-\beta_{2}\right)^{2} \sum x_{i}^{2}}{\sum e_{i}^{2} /(n-2)} \sim F(1,n-2) \]

计算样本统计量：

\[ F^{\ast} = \frac{ESS / df_{ESS}}{RSS / df_{RSS}} = \frac{MSS_{ESS}}{MSS_{RSS}} \]

F检验与t检验的比较

联系： - 在一元回归模型中，t检验与F检验的结论总是一致的 - 对于检验斜率参数\(\beta_2\)的显著性，两者可相互替代 - 在一元回归分析中，若假设\(H_0:\beta_2=0\)，则\(F^{\ast} \simeq (t^{\ast})^2\)

不同： 1. 检验目的不同： - F检验：检验模型的整体显著性 - t检验：检验各个回归参数的显著性 2. 假设的提出不同 3. 检验原理不同

重要注意事项

统计显著性与实际显著性：
- 不能一味追求统计显著性
- 需要考虑”实际显著性”的现实意义
置信区间方法与显著性检验方法的选择：
- 一般来说，置信区间方法优于显著性检验方法
- 置信区间方法能提供更多信息
假设检验的局限性：
- 显著性水平的选择具有主观性
- 样本量会影响检验结果
- 需要结合实际情况进行判断

5.6 拟合优度与残差分析

拟合优度

基本概念

拟合优度（Goodness of fit）：度量样本回归线对一组数据拟合优劣水平。

判定系数（coefficient of determination）：一种利用平方和分解，考察样本回归线对数据拟合效果的总度量。

一元回归中，一般记为\(r^2\)
多元回归中，一般记为\(R^2\)

判定系数的计算

判定系数\(r^2\)计算公式1：

\[ \begin{align} r^2 &=\frac{ESS}{TSS} \\ &= \frac{\sum{(\hat{Y}_i - \bar{Y})^2}}{\sum{(Y_i - \bar{Y})^2}} \end{align} \]

判定系数\(r^2\)计算公式2：

\[ \begin{align} r^2 &=1- \frac{RSS}{TSS} \\ &= 1- \frac{\sum{e_i^2}}{\sum{(Y_i - \bar{Y})^2}} \end{align} \]

判定系数\(r^2\)计算公式3：

\[ \begin{align} r^2 &=\frac{ESS}{TSS} \\ &= \frac{\sum{\hat{y}_i^2}}{\sum{y_i^2}} \\ &= \frac{\sum{(\hat{\beta}_2x_i)^2}}{\sum{y_i^2}} \\ &= \hat{\beta}_2^2\frac{\sum{x_i^2}}{\sum{y_i^2}} \\ &= \hat{\beta}_2^2 \frac{S_{X_i}^2}{S_{Y_i}^2} \end{align} \]

判定系数\(r^2\)计算公式4：

\[ \begin{align} r^2 &= \hat{\beta}_2^2 \cdot \frac{\sum{x_i^2}}{\sum{y_i^2}} \\ &= \left( \frac{\sum{x_iy_i}}{\sum{x_i^2}} \right)^2 \cdot \left( \frac{\sum{x_i^2}}{\sum{y_i^2}} \right) \\ &= \frac{(\sum{x_iy_i})^2}{\sum{x_i^2 }\sum{y_i^2}} \end{align} \]

判定系数的性质

\(r^2\)是一个非负量
\(0 \leq r^2 \leq 1\)
- \(r^2 = 0\)：表示回归线完全不能解释Y的变异
- \(r^2 = 1\)：表示回归线完全解释了Y的变异

判定系数与相关系数的关系

总体相关系数：

\[ \begin{align} \rho &=\frac{Cov(X,Y)}{\sqrt{Var(X_i)Var(Y_i)}} \\ &=\frac{E(X_i-EX)(Y_i-EY)}{\sqrt{E(X_i-EX)^2E(Y_i-EY)^2}} \end{align} \]

样本相关系数：

\[ \begin{align} r &=\frac{S_{XY}^2}{S_X\ast S_Y} \\ &=\frac{\sum{(X_i-\bar{X})(Y_i-\bar{Y})}}{\sqrt{\sum{(X_i-\bar{X}})^2\sum{(Y_i-\bar{Y})^2}}} \\ &= \frac{\sum{x_iy_i}}{\sqrt{\sum{x_i^2 }\sum{y_i^2}}} \end{align} \]

联系与区别：

在一元回归中，判定系数\(r^2\)等于样本相关系数\(r\)的平方
判定系数\(r^2\)表明因变量变异由解释变量所解释的比例
相关系数\(r\)只能表明变量间的线性关联强度
在多元回归中，这种区别会更加凸显

残差分析

残差的定义与作用

残差(residual)：是因变量的观测值与根据估计的回归方程求出的估计值之差，用\(e_i\)表示。

\[ \begin{align} e_i = Y_i - \hat{Y_i} \end{align} \]

残差分析的主要目的： 1. 反映用估计的回归方程去预测而引起的误差 2. 可用于确定有关随机干扰项\(\mu_i\)的假定是否成立 3. 用于检测有影响的观测值

标准化残差

皮尔逊标准化残差（Pearson residual）：

\[ \begin{align} e_{i, sd}^{\ast} &= \frac{e_i}{s_{e_i}} \\ &= \frac{(Y_i - \hat{Y_i})}{\sqrt{\frac{\sum{(e_i-\bar{e})^2}}{n-1}}} \end{align} \]

学生化标准残差（Studentized Residuals）：

\[ \begin{align} e_{i,st}^{\ast} &= \frac{e_i}{\sqrt{MSE_{(i)}(1-h_{ii})}} \end{align} \]

或

\[ \begin{align} e_{i,st}^{\ast} &= e_{i, sd}^{\ast}\left( \frac{n-m-2}{n-m-1-e_{i, sd}^{\ast 2}}\right)^2 \end{align} \]

其中： - \(MSE_{(i)}\)：删除第\(i\)个观测值进行建模的均方误差 - \(h_{ii}\)：删除第\(i\)个观测值进行建模的第\(i\)个影响权重 - \(m=k-1\)：回归元个数

残差图分析

残差图(residual plot)：用于呈现残差数据\(e_i\)的分布情况的统计图图形，主要包括：

关于\(X_i\)的残差散点图
关于\(Y_i\)的残差散点图（或关于\(\hat{Y_i}\)）
关于样本序号的残差散点图或标准化残差散点图

重要注意事项

拟合优度的理解：
- 即使采用OLS方法，对样本数据的拟合也是不完全的
- 实际数据点在样本回归线附近，而不是在样本回归线上
- 样本点行为的”变异”可划分为”回归”能解释的部分和”随机”的部分
残差分析的重要性：
- 残差分析是检验模型假设是否成立的重要手段
- 标准化残差可以帮助识别异常值和有影响的观测值
- 残差图可以直观地展示模型的拟合效果和潜在问题
模型诊断的综合性：
- 不能仅依赖单一指标判断模型的好坏
- 需要结合拟合优度、残差分析等多种方法
- 考虑统计显著性的同时，也要关注实际意义

5.7 回归预测分析

回归预测的基本概念

两类预测

一元回归模型下：

\[ \begin{align} Y_i = \beta_1 + \beta_2X_i +u_i \end{align} \]

均值预测(mean prediction)： - 给定\(X_0\)，预测Y的条件均值\(E(Y|X=X_0)\)

个值预测(individual prediction)： - 给定\(X_0\)，预测对应于\(X_0\)的Y的个别值\((Y_0|X_0)\)

预测分析的关键

样本外拟合值\(\hat{Y}_0|X=X_0\)的性质： - 是均值\(E(Y|X=X_0)\)的一个BLUE - 是个值\((Y_0|X_0)\)的一个BLUE

均值预测

均值预测的分布

在N-CLRM假设和OLS方法下，给定\(X_0\)下的拟合值\(\hat{Y}_0\)服从如下正态分布：

\[ \begin{align} \hat{Y}_{0} &\sim \mathrm{N}\left(\mu_{\hat{Y}_{0}}, \sigma_{\hat{Y}_{0}}^{2}\right) \\ \mu_{\hat{Y}_{0}} &= E\left(\hat{Y}_{0}\right) = E\left(\hat{\beta}_{1}+\hat{\beta}_{2} X_{0}\right) = \beta_{1}+\beta_{2} X_{0} = E(Y | X_{0}) \\ \operatorname{var}\left(\hat{Y}_{0}\right) &= \sigma_{\hat{Y}_{0}}^{2} = \sigma^{2}\left[\frac{1}{n}+\frac{\left(X_{0}-\overline{X}\right)^{2}}{\sum x_{i}^{2}}\right] \end{align} \]

均值预测的置信区间

构造t统计量：

\[ \begin{align} T &= \frac{\hat{Y}_{0}-\mathrm{E}(\mathrm{Y} | \mathrm{X}_{0})}{S_{\hat{Y}_{0}}} \sim t(n-2) \\ S_{\hat{Y}_{0}} &= \sqrt{\hat{\sigma}^{2}\left[\frac{1}{n}+\frac{\left(X_{0}-\overline{X}\right)^{2}}{\sum x_{i}^{2}}\right]} \end{align} \]

均值\(E(Y|X=X_0)\)的置信区间：

\[ \begin{align} \operatorname{Pr}\left[\hat{Y}_{0}-t_{1-\alpha / 2}(n-2) \cdot S_{\hat{Y}_{0}} \leq E(Y | X_{0}) \leq \hat{Y}_{0}+t_{1-\alpha / 2}(n-2) \cdot S_{\hat{Y}_{0}}\right] = 1-\alpha \end{align} \]

个值预测

个值预测的分布

在N-CLRM假设和OLS方法下，给定\(X_0\)下的个别值\(Y_0\)服从如下正态分布：

\[ \begin{align} Y_{0} &\sim \mathrm{N}\left(\mu_{Y_{0}}, \sigma_{Y_{0}}^{2}\right) \\ \mu_{Y_{0}} &= E\left(Y_{0}\right) = E\left(\beta_{1}+\beta_{2} X_{0}\right) = \beta_{1}+\beta_{2} X_{0} \\ Var(Y_{0}) &= Var{(u_0)} = \sigma^{2} \end{align} \]

个值预测的置信区间

构造新的随机变量\((Y_0-\hat{Y}_0)\)的分布：

\[ \begin{align} Y_{0} - \hat{Y}_{0} &\sim N\left( 0, \sigma^{2}\left[1 + \frac{1}{n}+\frac{\left(X_{0}-\overline{X}\right)^{2}}{\sum x_{i}^{2}}\right]\right) \\ Y_{0} - \hat{Y}_{0} &\sim N\left( 0, \sigma^{2}_{Y_{0} - \hat{Y}_{0}} \right) \end{align} \]

构造t统计量：

\[ \begin{align} T &= \frac{(Y_{0} - \hat{Y}_{0})}{S_{(Y_{0} - \hat{Y}_{0})}} \sim t(n-2) \\ S_{(Y_{0} - \hat{Y}_{0})} &= \sqrt{\hat{\sigma}^{2}\left[1+\frac{1}{n}+\frac{\left(X_{0}-\overline{X}\right)^{2}}{\sum x_{i}^{2}}\right]} \end{align} \]

个值\(Y_{0}\)的置信区间：

\[ \begin{align} \operatorname{Pr}\left[\hat{Y}_{0}-t_{1-\alpha / 2}(n-2) \cdot S_{(Y_{0} - \hat{Y}_{0})} \leq Y_{0} \leq \hat{Y}_{0}+t_{1-\alpha / 2}(n-2) \cdot S_{(Y_{0} - \hat{Y}_{0})}\right] = 1-\alpha \end{align} \]

置信带

置信带的概念

置信带(confidence interval)：对所有的X值，分别进行均值和个值预测，得到：

均值预测的置信带——总体回归函数的置信带
个值预测的置信带

置信带的特点

均值预测比个值预测更准确（置信带更窄）
置信带在中心点\((\bar{X}, \bar{Y})\)处最窄
样本内置信带用于检验可靠性
样本外置信带用于预测未来值范围

重要注意事项

回归预测的基础：
- 基于OLS估计方法
- 基于CLRM假设
- 基于BLUE估计性质
预测的可信度：
- 均值预测比个值预测更准确
- 置信带宽度反映预测的不确定性
- 置信度越高，置信带越宽
预测的局限性：
- 预测结果依赖于模型假设的合理性
- 预测精度受样本量和数据质量影响
- 预测范围受解释变量取值范围的限制

5.8 回归报告解读

回归报告的基本形式

课程要求

熟练、正确阅读统计软件给出的各类分析报告
理解报告中的关键信息和内涵
掌握不同统计软件（如Stata、EViews、R、Excel等）的回归分析报告解读

一元回归模型

\[ \begin{align} Y_i = \beta_1 + \beta_2X_i +u_i \end{align} \]

回归报告的呈现形式

多行方程表达法

形式1：多行方程表达法（精炼报告）：

\[ \begin{align} \hat{Y}_i &= \hat{\beta}_1 + \hat{\beta}_2X_i \\ (t) &= (t_1) \quad (t_2) \\ (se) &= (se_1) \quad (se_2) \\ (fitness) &= R^2 = \ldots; \quad \bar{R}^2 = \ldots; \quad F = \ldots; \quad p = \ldots \end{align} \]

表格列示法

形式2：表格列示法（精炼报告）：

term	estimate	std.error	statistic	p.value
(Intercept)	\(\hat{\beta}_1\)	\(se_1\)	\(t_1\)	\(p_1\)
X	\(\hat{\beta}_2\)	\(se_2\)	\(t_2\)	\(p_2\)

统计软件报告解读

Excel软件报告

形式3：原始报告包含以下部分：

参数估计结果
- 回归系数
- 标准误差
- t统计量
- P值
- 置信区间
拟合优度信息
- 判定系数\(R^2\)
- 调整判定系数\(\bar{R}^2\)
- 标准误差
方差分解（ANOVA表）
- 回归平方和
- 残差平方和
- 总平方和
- 自由度
- F统计量
残差分析
- 残差表
- 残差图

EViews软件报告

形式3：原始报告包含以下部分：

抬头区域
- Dependent Variable：因变量
- Method：分析方法
- Date/Time：分析时间
- Sample：样本范围
- Included observations：样本数
三线表区域
- Variable：模型变量
- Coefficient：回归系数
- Std. Error：标准误差
- t-Statistic：t统计量
- Prob.：概率值
指标值区域
- R-squared：判定系数
- Adjusted R-squared：调整判定系数
- S.E. of regression：回归误差标准差
- Sum squared resid：残差平方和
- Log likelihood：对数似然值
- F-statistic：F统计量
- Prob(F-statistic)：F统计量概率值

R软件报告

形式4：原始报告包含： - 回归系数估计 - 标准误差 - t统计量 - P值 - 拟合优度指标 - 方差分析表

重要注意事项

报告解读要点

关注回归系数的经济含义
重视统计显著性检验结果
注意模型整体拟合优度
检查残差分析结果

软件操作要求

熟练掌握Excel回归分析操作步骤
理解不同软件报告格式的异同
能够正确提取和解读关键信息

报告应用建议

根据研究目的选择合适的报告形式
注意报告内容的完整性和准确性
结合经济理论和统计检验结果进行综合分析

5.1 变量间关系的度量

变量间的关系类型

函数关系

相关关系

相关关系的描述与测度

相关分析的基本问题

相关分析的基本假定

相关系数

定义与性质

计算公式

相关系数的经验解释

偏相关系数

相关系数的显著性检验

检验步骤

注意事项

5.2 回归分析的基本思想

相关关系与因果关系

相关关系的类型

相关关系与因果关系的区别

回归分析的基本概念

无条件概率与无条件期望

条件概率与条件期望

总体回归分析

总体回归线（PRL）

总体回归函数（PRF）

总体回归模型（PRM）

样本回归分析

样本回归线（SRL）

样本回归函数（SRF）

样本回归模型（SRM）

总体回归与样本回归的比较

主要区别

重要结论

思考问题

5.3 OLS方法与参数估计

普通最小二乘法（OLS）

基本概念

OLS基本原理

参数估计

回归参数的OLS点估计

回归参数的OLS点估计（离差形式）

随机干扰项参数的OLS点估计

SRF和SRM的特征

基本特征

离差形式

估计精度

斜率系数的方差

截距系数的方差

区间估计

斜率系数的置信区间

截距系数的置信区间

随机干扰项方差的置信区间

重要注意事项

估计量性质

估计精度影响因素

区间估计要点

5.4 经典假设与OLS性质

经典线性回归模型（CLRM）假设

关于模型的假设

关于自变量X的假设

关于随机干扰项的假设

关于样本数的要求

OLS估计量的性质

高斯-马尔可夫定理

线性性

无偏性

方差最小性

经典正态线性回归模型（N-CLRM）

N-CLRM假设

N-CLRM假设下OLS估计量的性质

重要注意事项

5.5 假设检验

假设检验的基本原理

假设检验的概念

假设检验的方法

置信区间检验法

双侧检验

显著性检验法

检验步骤

显著性水平与显著性概率