回帰分析における残差分散の不偏性の証明

　統計分析の復習

$n$個のデータの組 $(x_1,y_1),...,(x_n,y_n)$ に対して、$y_i=\alpha+\beta x_i+\varepsilon_i$ という単回帰モデルを考えて、$\alpha, \beta$ の最小二乗推定量(OLSE: Ordinary Least Squares Estimation)を、$\hat\alpha, \hat\beta$ とおこう。ただし、$\hat\beta=(x,y\mathrm{の共分散})/(x\mathrm{の分散})$ であり、$\hat\alpha = \bar y-\hat\beta \bar x$ の関係がある。このとき、残差 $e_i$ とは実際の値 $y_i$ と予測値 $\hat y_i=\hat\alpha+\hat\beta x_i$ の差 $y_i-\hat y_i$ であって、以下の2つの公式を満たす。

i)$\displaystyle\quad\sum_i e_i=0$
ii)$\displaystyle \quad\sum_i e_ix_i=0$

・公式の証明

　そもそもOLSEというのは、残差の二乗和 $\displaystyle f(a,b) = \sum_i (y_i-(a+bx_i))^2$ を最小化するような $a, b$のことをいうのであった。これはすなわち、 $$\left . \frac{\partial f}{\partial a}\right |_{(a,b)=(\hat\alpha,\hat\beta)}=0$$ $$\left . \frac{\partial f}{\partial b}\right |_{(a,b)=(\hat\alpha,\hat\beta)}=0$$ということであるから、実際に偏微分してみると$$\left . \frac{\partial f}{\partial a}\right |_{(a,b)=(\hat\alpha,\hat\beta)}=-2\sum_i(y_i-(\hat\alpha+\hat\beta x_i))=-2\sum_i e_i$$ $$\left . \frac{\partial f}{\partial b}\right |_{(a,b)=(\hat\alpha,\hat\beta)}=-2\sum_i(y_i-(\hat\alpha+\hat\beta x_i))x_i=-2\sum_i e_ix_i$$
となって直ちに得られる。

・自由度

　以上より、残差 $e_i$ は2つの公式を満たす、言い換えれば、2つの制約があるということになる。少々統計をかじった人ならば、自由度が $n-2$ となることは容易に想像ができよう。

・残差分散

　さて、回帰分析をする上で重要になるのは誤差項 $\varepsilon_i$ の分散 $\sigma^2$であるが、これは当然、未知であるから、推定をしなければならない。単回帰分析において誤差項に対応する項は残差項であるから、残差の分散をもって誤差項の分散を推定するのが自然である。
　自由度が $n-2$ になっていることを念頭に置けば、(不偏分散の分母が $n-1$ であったように)残差の分散が $$s^2=\frac{1}{n-2}\sum_i e_i^2$$であることは明らかであるが、これが本当に $\sigma^2$ の不偏推定量であること、数式にすれば、$E(s^2)=\sigma^2$であることを証明する。

・下ごしらえ

　簡単のために以下の変数を用意しておこう。$$A=\sum_i (x_i-\bar x)^2$$$$w_i=\frac{x_i-\bar x}{A}$$　また、次の公式を示しておこう。$$\sum_i(x_i-\bar x)x_i=\sum_i(x_i-\bar x)^2$$$$\sum_i(x_i-\bar x)y_i=\sum_i(x_i-\bar x)(y_i-\bar y)$$　これは考えてみればどうということはなくて、$\displaystyle \sum_i(x_i-\bar x)=0$ を利用して左辺からゼロを引いているだけの話である。
　また、これらを利用して$\hat\beta$ について書き下してみると、$$\begin{eqnarray}\hat\beta&=&\frac{\sum_i (x_i-\bar x)(y_i-\bar y)}{A}\\
&=&\frac{\sum_i (x_i-\bar x)y_i}{A}\\
&=&\frac{\sum_i (x_i-\bar x)(\alpha+\beta x_i+\varepsilon_i)}{A}\end{eqnarray}$$　ここで分子について考えてみると、$$\begin{eqnarray}\sum_i (x_i-\bar x)(\alpha+\beta x_i+\varepsilon_i)&=&\alpha\sum_i(x_i-\bar x)+\beta\sum_i(x_i-\bar x)x_i+\sum_i(x_i-\bar x)\varepsilon_i\\
&=&\beta\cdot A+\sum_i(x_i-\bar x)\varepsilon_i\end{eqnarray}$$だから、結局$$\hat\beta=\beta+\sum_i w_i\varepsilon_i$$が得られる。

・本題

　まずは残差の二乗和からスタートしよう。$$\begin{eqnarray}\sum_i e_i^2&=&\sum_i e_i\cdot e_i\\
&=&\sum_i e_i(y_i-\hat y_i)\\
&=&\sum_i e_i(\alpha+\beta x_i+\varepsilon_i-(\hat\alpha+\hat\beta x_i))\\
&=&(\alpha-\hat\alpha)\sum_i e_i + (\beta-\hat\beta)\sum_i e_ix_i +\sum_i e_i\varepsilon_i\\
&=&\sum_i e_i\varepsilon_i\quad\cdots(1)\end{eqnarray}$$最後の変形は公式(i), (ii)を使った。
　次に、もう一つの $e_i$ を別の形で書き表してみる。$$\begin{eqnarray}e_i&=&y_i-\hat y_i=y_i-(\hat\alpha+\hat\beta x_i)\\
&=&y_i-(\bar y-\hat\beta \bar x+\hat\beta x_i)\\
&=&(y_i-\bar y)-\hat\beta(x_i-\bar x)\end{eqnarray}$$　ここで、$\bar y=\alpha+\beta \bar x+\bar \varepsilon$ (ただし $\displaystyle \bar \varepsilon=\frac 1n \sum_i \varepsilon_i$)を代入すると、
$$\begin{eqnarray}e_i&=&\beta(x_i-\bar x)+\varepsilon_i-\bar\varepsilon -\hat\beta(x_i-\bar x)\\
&=&(\beta-\hat\beta)(x_i-\bar x)+\varepsilon_i-\bar\varepsilon\end{eqnarray}$$　さらに、$\displaystyle \hat\beta-\beta=\sum_i w_i\varepsilon_i$だったことから、$$e_i=-(x_i-\bar x)\sum_j w_j\varepsilon_j+\varepsilon_i-\bar\varepsilon$$となる。これを(1)に戻してやると、$$\begin{eqnarray}\sum_i e_i^2&=&\sum_i e_i\varepsilon_i\\
&=&-\sum_{i,j}(x_i-\bar x)\varepsilon_iw_j\varepsilon_j+\sum_i(\varepsilon_i-\bar\varepsilon)\varepsilon_i\\
&=&-\sum_{i,j}(x_i-\bar x)\varepsilon_iw_j\varepsilon_j+\sum_i\varepsilon_i^2-\frac1n \sum_{i,j}\varepsilon_i\varepsilon_j\\
&=&-\sum_{i,j}\left((x_i-\bar x)w_j+\frac1n\right)\varepsilon_i\varepsilon_j+\sum_i\varepsilon_i^2\end{eqnarray}$$
　ここで両辺の期待値を取るのだが、回帰分析の標準的仮定により、$i\neq j$ ならば $E(\varepsilon_i\varepsilon_j)=0$ が成り立っているので、$\displaystyle E\left(\sum_{i,j}\varepsilon_i\varepsilon_j\right)=E\left(\sum_i \varepsilon_i^2\right)$ となる。ゆえに
$$\begin{eqnarray}E\left(\sum_i e_i^2\right)&=&E\left(-\sum_i\left((x_i-\bar x)w_i-\frac1n\right)\varepsilon_i^2+\sum_i \varepsilon_i^2\right)\\
&=&-\sum_i\left((x_i-\bar x)w_i+\frac1n\right)E(\varepsilon_i^2)+\sum_i E(\varepsilon_i^2)\end{eqnarray}$$
　ここで $E(\varepsilon_i^2)$ とは誤差項の分散 $V(\varepsilon_i)=\sigma^2$ にほかならない。ゆえに$$E\left(\sum_i e_i^2\right)=-\sigma^2\sum_i\left((x_i-\bar x)w_i+\frac1n\right)+n\sigma^2$$である。さらに、$$\begin{eqnarray}\sum_i (x_i-\bar x)w_i&=&\sum_i (x_i-\bar x)\frac{x_i-\bar x}{A}\\
&=&\frac{\sum_i(x_i-\bar x)^2}{A}\\
&=&A/A\\
&=&1\end{eqnarray}$$なので、結局$$E\left(\sum_i e_i^2\right)=-\sigma^2(1+1)+n\sigma^2=(n-2)\sigma^2$$
よって、$$E\left(\frac{1}{n-2}\sum_i e_i^2\right)=\sigma^2$$が示され、残差分散は誤差項の分散の不偏推定量であることが示された。

　重回帰のときも同じ感じで行けそうな雰囲気があるが、わざわざ証明する必要がないのでこれでよしとする。

回帰分析における残差分散の不偏性の証明