二元回归OLS估计与SSE函数 – Hansen Econometrics

在计量经济学中，当解释变量超过一个时，我们就进入了多元回归的领域。本节我们考虑有两个解释变量的二元回归模型，这是从一元回归到多元回归的重要过渡。

1 模型设定和OLS估计量

考虑二元回归模型： \[ Y_i = X_{1i} \beta_1 + X_{2i} \beta_2 + \varepsilon_i \]

其中：

\(Y_i\) 是被解释变量
\(X_{1i}, X_{2i}\) 是解释变量（标量）
\(\beta_1, \beta_2\) 是回归系数（标量）
\(\varepsilon_i\) 是误差项

使用矩阵表示，可以写成： \[ Y_i = X_i' \beta + \varepsilon_i \]

其中 \(X_i = (X_{1i}, X_{2i})'\)，\(\beta = (\beta_1, \beta_2)'\)。

最小二乘估计的目标是找到参数向量 \(\beta\) 的估计值 \(\hat{\beta}\)，使得残差平方和（Sum of Squared Errors, SSE）最小：

\[ \hat{\beta} = \arg\min_{\beta} \sum_{i=1}^{n}(Y_i - X_i' \beta)^2 \]

2 OLS估计量推导

残差平方和函数为： \[ \text{SSE}(\beta) = \sum_{i=1}^{n}(Y_i - X_i' \beta)^2 \]

展开平方项： \[ \text{SSE}(\beta) = \sum_{i=1}^{n}(Y_i^2 - 2Y_i X_i' \beta + \beta' X_i X_i' \beta) \]

整理得到： \[ \text{SSE}(\beta) = \sum_{i=1}^{n} Y_i^2 - 2\beta' \sum_{i=1}^{n} X_i Y_i + \beta' \sum_{i=1}^{n} X_i X_i' \beta \]

这是一个关于向量 \(\beta\) 的二次函数。

2.1 一阶条件

对 \(\text{SSE}(\beta)\) 关于 \(\beta\) 求导： \[ \frac{\partial}{\partial \beta} \text{SSE}(\beta) = -2 \sum_{i=1}^{n} X_i Y_i + 2 \sum_{i=1}^{n} X_i X_i' \beta \]

令导数等于零： \[ -2 \sum_{i=1}^{n} X_i Y_i + 2 \sum_{i=1}^{n} X_i X_i' \hat{\beta} = 0 \]

整理得到： \[ \sum_{i=1}^{n} X_i X_i' \hat{\beta} = \sum_{i=1}^{n} X_i Y_i \]

2.2 矩阵解

这是一个线性方程组 \(\boldsymbol{A} \boldsymbol{b} = \boldsymbol{c}\)，其中： - \(\boldsymbol{A} = \sum_{i=1}^{n} X_i X_i'\)（\(k \times k\) 矩阵） - \(\boldsymbol{b} = \hat{\beta}\)（\(k \times 1\) 向量） - \(\boldsymbol{c} = \sum_{i=1}^{n} X_i Y_i\)（\(k \times 1\) 向量）

解为： \[ \hat{\beta} = \left(\sum_{i=1}^{n} X_i X_i'\right)^{-1} \left(\sum_{i=1}^{n} X_i Y_i\right) \]

这就是二元回归的OLS估计量。

2.3 二阶条件

验证二阶条件，计算Hessian矩阵： \[ \frac{\partial^2}{\partial \beta \partial \beta'} \text{SSE}(\beta) = 2 \sum_{i=1}^{n} X_i X_i' \]

这是一个半正定矩阵。如果它是正定的，则二阶条件满足，\(\hat{\beta}\) 是 \(\text{SSE}(\beta)\) 的唯一最小值点。

3 残差平方和函数的几何性质

残差平方和函数 \(\text{SSE}(\beta)\) 是关于 \(\beta_1\) 和 \(\beta_2\) 的二次函数，具有以下几何性质：

三维表面：\(\text{SSE}(\beta)\) 在 \((\beta_1, \beta_2, \text{SSE})\) 空间中形成一个碗状的三维表面
等高线：在 \((\beta_1, \beta_2)\) 平面上的等高线是椭圆形的
最小值点：OLS估计量 \(\hat{\beta}\) 对应SSE函数的最小值点

4 R代码复现过程

4.1 1. 数据生成

根据教材内容，我们生成模拟数据： - \(X_1, X_2 \sim U[0,2]\)（均匀分布） - \(Y \sim N(2 + 3X_1 + 2X_2, 1)\)（正态分布，包含截距项）

我们估计如下有截距模型：

\[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \varepsilon_i \]

模拟数据集如下：

4.2 2. OLS估计

使用矩阵公式计算OLS估计量。

以下是R估计结果的初始报告摘要：


Call:
lm(formula = Y ~ X1 + X2, data = data_multiple)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.20867 -0.78872 -0.01709  0.94092  1.89296 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   1.9618     0.2675   7.334 6.79e-11 ***
X1            2.9670     0.1752  16.933  < 2e-16 ***
X2            1.9607     0.1699  11.538  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.981 on 97 degrees of freedom
Multiple R-squared:  0.8296,    Adjusted R-squared:  0.8261 
F-statistic: 236.2 on 2 and 97 DF,  p-value: < 2.2e-16

对上述结果进行整理得到如下估计方程表达式：

\[ \begin{alignedat}{999} \begin{split} &\widehat{Y}=&&+1.9618&&+2.9670X1_i&&+1.9607X2_i\\ &(s)&&(0.2675)&&(0.1752)&&(0.1699)\\ &(t)&&(+7.33)&&(+16.93)&&(+11.54)\\ &(over)&&n=100&&\hat{\sigma}=0.9810 &&\\ &(fit)&&R^2=0.8296&&\bar{R}^2=0.8261 &&\\ &(Ftest)&&F^*=236.16&&p=0.0000 && \end{split} \end{alignedat} \]

4.3 3. 计算拟合值和残差

根据OLS估计量计算拟合值和残差。

以下是拟合值和残差的计算结果表：

4.4 4. 绘制图形1：三维回归平面图

根据拟合值和残差计算结果绘制三维图形。图形如下：

图 1: 数据点和回归平面

4.5 5. 绘制图形2：SSE函数三维表面图

图 2: SSE函数关于 \(\beta_1\) 和 \(\beta_2\) 的三维表面形状

4.6 6. 绘制图形3：SSE等高线图

图 3: SSE函数关于 \(\beta_1\) 和 \(\beta_2\) 的等高线图

5 复现结果评注

通过本次复现，我们得到了以下结果：

OLS估计量：通过最小化残差平方和，我们得到了回归系数向量 \(\hat{\beta} = (\hat{\beta}_0, \hat{\beta}_1, \hat{\beta}_2)'\)。
图形分析：
- 图1显示了数据点、回归平面和残差（垂直距离），直观展示了多元最小二乘估计的几何意义
- 图2显示了SSE函数关于 \(\beta_1\) 和 \(\beta_2\) 的三维表面形状，最小值点对应OLS估计量
- 图3显示了SSE函数的等高线图，椭圆形等高线反映了参数之间的相关性
理论验证：通过验证SSE函数的二次形式和Hessian矩阵的正定性，确认了数学推导的正确性。
矩阵运算：展示了如何使用矩阵代数求解多元回归的OLS估计量，为后续更复杂的多元回归模型奠定了基础。

这个复现完整地展示了多元最小二乘估计的理论基础和实际应用。