統計分析の復習


\(n\)個のデータの組 \((x_1,y_1),...,(x_n,y_n)\) に対して、\(y_i=\alpha+\beta x_i+\varepsilon_i\) という単回帰モデルを考えて、\(\alpha, \beta\) の最小二乗推定量(OLSE: Ordinary Least Squares Estimation)を、\(\hat\alpha, \hat\beta\) とおこう。ただし、\(\hat\beta=(x,y\mathrm{の共分散})/(x\mathrm{の分散})\) であり、\(\hat\alpha = \bar y-\hat\beta \bar x\) の関係がある。 このとき、残差 \(e_i\) とは実際の値 \(y_i\) と予測値 \(\hat y_i=\hat\alpha+\hat\beta x_i\) の差 \(y_i-\hat y_i\) であって、以下の2つの公式を満たす。

  • i)\(\displaystyle\quad\sum_i e_i=0\)
  • ii)\(\displaystyle \quad\sum_i e_ix_i=0\)

・公式の証明

 そもそもOLSEというのは、残差の二乗和 \(\displaystyle f(a,b) = \sum_i (y_i-(a+bx_i))^2\) を最小化するような \(a, b\)のことをいうのであった。これはすなわち、 $$\left . \frac{\partial f}{\partial a}\right |_{(a,b)=(\hat\alpha,\hat\beta)}=0$$ $$\left . \frac{\partial f}{\partial b}\right |_{(a,b)=(\hat\alpha,\hat\beta)}=0$$ということであるから、実際に偏微分してみると$$\left . \frac{\partial f}{\partial a}\right |_{(a,b)=(\hat\alpha,\hat\beta)}=-2\sum_i(y_i-(\hat\alpha+\hat\beta x_i))=-2\sum_i e_i$$ $$\left . \frac{\partial f}{\partial b}\right |_{(a,b)=(\hat\alpha,\hat\beta)}=-2\sum_i(y_i-(\hat\alpha+\hat\beta x_i))x_i=-2\sum_i e_ix_i$$
となって直ちに得られる。

・自由度

 以上より、残差 \(e_i\) は2つの公式を満たす、言い換えれば、2つの制約があるということになる。少々統計をかじった人ならば、自由度が \(n-2\) となることは容易に想像ができよう。

・残差分散

 さて、回帰分析をする上で重要になるのは誤差項 \(\varepsilon_i\) の分散 \(\sigma^2\)であるが、これは当然、未知であるから、推定をしなければならない。単回帰分析において誤差項に対応する項は残差項であるから、残差の分散をもって誤差項の分散を推定するのが自然である。
 自由度が \(n-2\) になっていることを念頭に置けば、(不偏分散の分母が \(n-1\) であったように)残差の分散が $$s^2=\frac{1}{n-2}\sum_i e_i^2$$であることは明らかであるが、これが本当に \(\sigma^2\) の不偏推定量であること、数式にすれば、\(E(s^2)=\sigma^2\)であることを証明する。

・下ごしらえ

 簡単のために以下の変数を用意しておこう。$$A=\sum_i (x_i-\bar x)^2$$$$w_i=\frac{x_i-\bar x}{A}$$ また、次の公式を示しておこう。$$\sum_i(x_i-\bar x)x_i=\sum_i(x_i-\bar x)^2$$$$\sum_i(x_i-\bar x)y_i=\sum_i(x_i-\bar x)(y_i-\bar y)$$ これは考えてみればどうということはなくて、\(\displaystyle \sum_i(x_i-\bar x)=0\) を利用して左辺からゼロを引いているだけの話である。
 また、これらを利用して\(\hat\beta\) について書き下してみると、$$\begin{eqnarray}\hat\beta&=&\frac{\sum_i (x_i-\bar x)(y_i-\bar y)}{A}\\
&=&\frac{\sum_i (x_i-\bar x)y_i}{A}\\
&=&\frac{\sum_i (x_i-\bar x)(\alpha+\beta x_i+\varepsilon_i)}{A}\end{eqnarray}$$ ここで分子について考えてみると、$$\begin{eqnarray}\sum_i (x_i-\bar x)(\alpha+\beta x_i+\varepsilon_i)&=&\alpha\sum_i(x_i-\bar x)+\beta\sum_i(x_i-\bar x)x_i+\sum_i(x_i-\bar x)\varepsilon_i\\
&=&\beta\cdot A+\sum_i(x_i-\bar x)\varepsilon_i\end{eqnarray}$$だから、結局$$\hat\beta=\beta+\sum_i w_i\varepsilon_i$$が得られる。

・本題

 まずは残差の二乗和からスタートしよう。$$\begin{eqnarray}\sum_i e_i^2&=&\sum_i e_i\cdot e_i\\
&=&\sum_i e_i(y_i-\hat y_i)\\
&=&\sum_i e_i(\alpha+\beta x_i+\varepsilon_i-(\hat\alpha+\hat\beta x_i))\\
&=&(\alpha-\hat\alpha)\sum_i e_i + (\beta-\hat\beta)\sum_i e_ix_i +\sum_i e_i\varepsilon_i\\
&=&\sum_i e_i\varepsilon_i\quad\cdots(1)\end{eqnarray}$$最後の変形は公式(i), (ii)を使った。
 次に、もう一つの \(e_i\) を別の形で書き表してみる。$$\begin{eqnarray}e_i&=&y_i-\hat y_i=y_i-(\hat\alpha+\hat\beta x_i)\\
&=&y_i-(\bar y-\hat\beta \bar x+\hat\beta x_i)\\
&=&(y_i-\bar y)-\hat\beta(x_i-\bar x)\end{eqnarray}$$ ここで、\(\bar y=\alpha+\beta \bar x+\bar \varepsilon\) (ただし \(\displaystyle \bar \varepsilon=\frac 1n \sum_i \varepsilon_i\))を代入すると、
$$\begin{eqnarray}e_i&=&\beta(x_i-\bar x)+\varepsilon_i-\bar\varepsilon -\hat\beta(x_i-\bar x)\\
&=&(\beta-\hat\beta)(x_i-\bar x)+\varepsilon_i-\bar\varepsilon\end{eqnarray}$$ さらに、\(\displaystyle \hat\beta-\beta=\sum_i w_i\varepsilon_i\)だったことから、$$e_i=-(x_i-\bar x)\sum_j w_j\varepsilon_j+\varepsilon_i-\bar\varepsilon$$となる。これを(1)に戻してやると、$$\begin{eqnarray}\sum_i e_i^2&=&\sum_i e_i\varepsilon_i\\
&=&-\sum_{i,j}(x_i-\bar x)\varepsilon_iw_j\varepsilon_j+\sum_i(\varepsilon_i-\bar\varepsilon)\varepsilon_i\\
&=&-\sum_{i,j}(x_i-\bar x)\varepsilon_iw_j\varepsilon_j+\sum_i\varepsilon_i^2-\frac1n \sum_{i,j}\varepsilon_i\varepsilon_j\\
&=&-\sum_{i,j}\left((x_i-\bar x)w_j+\frac1n\right)\varepsilon_i\varepsilon_j+\sum_i\varepsilon_i^2\end{eqnarray}$$
 ここで両辺の期待値を取るのだが、回帰分析の標準的仮定により、\(i\neq j\) ならば \(E(\varepsilon_i\varepsilon_j)=0\) が成り立っているので、\(\displaystyle E\left(\sum_{i,j}\varepsilon_i\varepsilon_j\right)=E\left(\sum_i \varepsilon_i^2\right)\) となる。ゆえに
$$\begin{eqnarray}E\left(\sum_i e_i^2\right)&=&E\left(-\sum_i\left((x_i-\bar x)w_i-\frac1n\right)\varepsilon_i^2+\sum_i \varepsilon_i^2\right)\\
&=&-\sum_i\left((x_i-\bar x)w_i+\frac1n\right)E(\varepsilon_i^2)+\sum_i E(\varepsilon_i^2)\end{eqnarray}$$
 ここで \(E(\varepsilon_i^2)\) とは誤差項の分散 \(V(\varepsilon_i)=\sigma^2\) にほかならない。ゆえに$$E\left(\sum_i e_i^2\right)=-\sigma^2\sum_i\left((x_i-\bar x)w_i+\frac1n\right)+n\sigma^2$$である。さらに、$$\begin{eqnarray}\sum_i (x_i-\bar x)w_i&=&\sum_i (x_i-\bar x)\frac{x_i-\bar x}{A}\\
&=&\frac{\sum_i(x_i-\bar x)^2}{A}\\
&=&A/A\\
&=&1\end{eqnarray}$$なので、結局$$E\left(\sum_i e_i^2\right)=-\sigma^2(1+1)+n\sigma^2=(n-2)\sigma^2$$
よって、$$E\left(\frac{1}{n-2}\sum_i e_i^2\right)=\sigma^2$$が示され、残差分散は誤差項の分散の不偏推定量であることが示された。


 重回帰のときも同じ感じで行けそうな雰囲気があるが、わざわざ証明する必要がないのでこれでよしとする。

回帰分析における残差分散の不偏性の証明

投稿ナビゲーション


回帰分析における残差分散の不偏性の証明” への2件のフィードバック

  1. 大変勉強になる記事をありがとうございます。一点質問がございます。
    「これは考えてみればどうということはなくて、∑i(xi−x¯)=0 を利用して左辺からゼロを引いているだけの話である。」

    この部分を少し詳しくご解説頂けないでしょうか。恥ずかしながら理解ができませんでした。

    1. ∑i(xi−x¯)=0 なので、それぞれx¯とy¯を掛けても0です。なので、∑i(xi−x¯)xi から∑i(xi−x¯)x¯ を、∑i(xi−x¯)yiから∑i(xi−x¯)y¯を引くことで、それぞれの公式の右辺を得られます。

コメントを残す

メールアドレスが公開されることはありません。