在计量经济学中,最小二乘法(Least Squares)是估计线性回归模型参数的基本方法。本节我们考虑最简单的情况:只有一个解释变量的一元回归模型。
1 模型设定和OLS估计量
考虑一元回归模型: \[ Y_i = X_i \beta + \varepsilon_i \]
其中:
- \(Y_i\) 是被解释变量
- \(X_i\) 是解释变量(标量)
- \(\beta\) 是回归系数(标量)
- \(\varepsilon_i\) 是误差项
最小二乘估计的目标是找到参数 \(\beta\) 的估计值 \(\hat{\beta}\),使得残差平方和(Sum of Squared Errors, SSE)最小:
\[ \hat{\beta} = \arg\min_{\beta} \sum_{i=1}^{n}(Y_i - X_i \beta)^2 \]
2 OLS估计量推导
对于二次函数 \(a - 2bx + cx^2\),其最小值点为 \(x = b/c\)。
因此,\(\text{SSE}(\beta)\) 的最小值点为: \[ \hat{\beta} = \frac{\sum_{i=1}^{n} X_i Y_i}{\sum_{i=1}^{n} X_i^2} \]
这就是一元回归的OLS估计量。
当 \(X_i = 1\) 时(截距项模型),OLS估计量简化为:
\[ \hat{\beta} = \frac{\sum_{i=1}^{n} 1 \cdot Y_i}{\sum_{i=1}^{n} 1^2} = \frac{1}{n}\sum_{i=1}^{n} Y_i = \bar{Y} \]
即样本均值。
3 残差平方和函数
残差平方和函数为:
\[ \text{SSE}(\beta) = \sum_{i=1}^{n}(Y_i - X_i \beta)^2 \]
展开平方项:
\[ \text{SSE}(\beta) = \sum_{i=1}^{n}(Y_i^2 - 2Y_i X_i \beta + X_i^2 \beta^2) \]
整理得到: \[ \text{SSE}(\beta) = \left(\sum_{i=1}^{n} Y_i^2\right) - 2\beta\left(\sum_{i=1}^{n} X_i Y_i\right) + \beta^2\left(\sum_{i=1}^{n} X_i^2\right) \]
这是一个关于 \(\beta\) 的二次函数,可以写成:
\[ \text{SSE}(\beta) = a - 2b\beta + c\beta^2 \]
其中:
- \(a = \sum_{i=1}^{n} Y_i^2\)
- \(b = \sum_{i=1}^{n} X_i Y_i\)
- \(c = \sum_{i=1}^{n} X_i^2\)
残差平方和函数最小值点的求解过程:
对 \(\text{SSE}(\beta)\) 关于 \(\beta\) 求导: \[ \frac{d}{d\beta}\text{SSE}(\beta) = \frac{d}{d\beta}(a - 2b\beta + c\beta^2) = -2b + 2c\beta \]
令导数等于零: \[ -2b + 2c\beta = 0 \]
解得: \[ 2c\beta = 2b \quad \Rightarrow \quad \beta = \frac{b}{c} \]
因此,残差平方和函数最小值点为: \[ \hat{\beta} = \frac{b}{c} = \frac{\sum_{i=1}^{n} X_i Y_i}{\sum_{i=1}^{n} X_i^2} \]
这其实就是OLS估计量。
4 R代码复现过程
4.1 1. 数据生成
根据教材脚注,我们生成模拟数据: - \(X \sim U[0,1]\)(均匀分布) - \(Y \sim N(3X, 1)\)(正态分布,均值为3X,方差为1)
我们估计如下无截距模型:
\[ Y_i = \beta_2 X_i + \varepsilon_i \]
模拟数据集如下:
4.2 2. OLS估计
根据公式(3.7)计算OLS估计量。
以下是R估计结果的初始报告摘要:
Call:
lm(formula = Y ~ 0 + X, data = data)
Residuals:
Min 1Q Median 3Q Max
-1.55675 -0.59042 0.08146 0.79300 1.80784
Coefficients:
Estimate Std. Error t value Pr(>|t|)
X 2.5407 0.3461 7.341 5.87e-07 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.9749 on 19 degrees of freedom
Multiple R-squared: 0.7393, Adjusted R-squared: 0.7256
F-statistic: 53.89 on 1 and 19 DF, p-value: 5.866e-07
对上述结果进行整理得到如下估计方程表达式:
\[ \begin{alignedat}{999} \begin{split} &\widehat{Y}=&&+0.6163&&+1.6851X_i\\ &(s)&&(0.4383)&&(0.6959)\\ &(t)&&(+1.41)&&(+2.42)\\ &(over)&&n=20&&\hat{\sigma}=0.9508\\ &(fit)&&R^2=0.2457&&\bar{R}^2=0.2038\\ &(Ftest)&&F^*=5.86&&p=0.0262 \end{split} \end{alignedat} \]
4.3 3. 计算拟合值和残差
根据OLS估计量计算拟合值和残差。
以下是拟合值和残差的计算结果表:
4.4 4. 绘制图形1:Deviation from Fitted Line
根据拟合值和残差计算结果绘制图形1。图形如下:

4.5 5. 绘制图形2:Sum of Squared Error Function

5 复现结果评注
通过本次复现,我们得到了以下结果:
OLS估计量:通过最小化残差平方和,我们得到了回归系数 \(\hat{\beta}_2 = 2.5407\)。
图形分析:
- 图1显示了数据点、拟合线和残差(垂直虚线),直观展示了最小二乘估计的几何意义
- 图2显示了SSE函数关于 \(\beta\) 的二次函数形状,最小值点对应OLS估计量
理论验证:通过验证SSE函数的二次形式,确认了数学推导的正确性。
这个复现完整地展示了最小二乘估计的理论基础和实际应用,为后续多元回归的学习奠定了坚实基础。