「なぜ不偏分散はn-1で割るのか?」を確認する
まず不偏分散の式ですが以下になります。
$$
u^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i – \bar{x})^2
$$
この$\frac{1}{n-1}$という部分に疑問を持ったことはありませんか? なぜ $n$ ではなく、$n-1$ で割るのでしょうか? この記事では不偏分散が上の式になる理由を確認します。
不偏分散
先に書いたように、不偏分散が以下の式になることを確認していきたいと思います。
自分もですが、なんで$\frac{1}{n-1}$なんだろうと思っていた人は多いかと思います
平均$\mu$、分散$\sigma ^2$の母集団からランダムに抽出したサンプルの値を$x_1, x_2, x_3, …, x_n$とします。
このとき、不偏分散$u^2$は以下の式で表されます。
$$
u^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i – \bar{x})^2
$$
なお、不偏分散と分散$\sigma $の関係は以下のようになります。
$$
E[u^2] = \sigma^2
$$
証明
では、証明していきます。
まず、標本分散$s^2$の式は以下のようになります。
$$
s^2 = \frac{1}{n}\sum(x_i – \bar{x})^2
$$
ここで、$\sum(x_i – \bar{x})^2$だけに注目すると以下のように展開できます。
$$ \begin{eqnarray} \sum(x_i – \bar{x})^2 &=& \sum \left((x_i-\mu) – (\bar{x} – \mu)\right)^2\\ &=& \sum(x_i-\mu)^2 – 2\sum(x_i – \mu)(\bar{x} – u) + \sum(\bar{x} – u)^2\\ &=& \sum(x_i – \mu)^2 – 2n(\bar{x}-u)^2 + n(\bar{x} – u)^2\\ &=& \sum(x_i – \mu)^2 – n(\bar{x}-u)^2 \end{eqnarray} $$
ポイントは、以下のように変形できることです。
$$ \begin{eqnarray} \sum(x_i – \mu)(\bar{x} – u) &=& (\bar{x} – u)\sum(x_i – \mu)\\ &=& (\bar{x} – u)\cdot n(\bar{x} – u)\\ &=& n(\bar{x} – u)^2 \end{eqnarray} $$
ここで、標本分散$s^2$の期待値を求めてみます。
$$ \begin{eqnarray} E\left[s^2\right] &=& E\left[\frac{1}{n}\sum(x_i – \bar{x})^2\right]\\ &=&E\left[ \frac{1}{n}\left(\sum(x_i – \mu)^2 – n(\bar{x}-u)^2\right)\right]\\ &=&E\left[ \frac{1}{n}\sum(x_i – \mu)^2 – \sum(\bar{x}-u)^2 \right]\\ &=&\sigma ^2 – \frac{\sigma^2}{n}\\ &=&\frac{n-1}{n}\sigma^2 \end{eqnarray} $$
$\frac{1}{n}\sum(x_i – \mu)^2$は分散を求める式ですし、$\sum(\bar{x}-u)^2$は$\frac{\sigma^2}{n}$となる点は大丈夫でしょうか(真面目に計算しtも求めることができますのでトライしてみてください)。
さて、ここで不偏分散の期待値の式を思い出してみます。
$$
E[u^2] = \sigma^2
$$
これと求めた$E[s^2]$より
$$ \begin{eqnarray} E[s^2] &=& \frac{n-1}{n}\sigma^2\\ & =& \frac{n-1}{n}E[u^2] &=& E\left[\frac{n-1}{n}u^2 \right] \end{eqnarray} $$
となるので、以下の関係が分かります。
$$ \begin{eqnarray} u^2 &=& \frac{n}{n-1}s^2\\ &=& \frac{n}{n-1}\frac{1}{n}\sum(x_i – \bar{x})^2\\ &=& \frac{1}{n-1}\sum(x_i – \bar{x})^2\\ \end{eqnarray} $$
と不偏分散の式が導出できました。
途中の式変形で、いくつかの基礎知識が必要となるのでわかりにくいかもしれませんが、変形自体は素直だと思います。
まとめ
以上、不偏分散の式が$n-1$を含むことを導出してみました。確かに、$n$ではなく、$n-1$となりますね。