====== 【データリテラシー】第8回 推定 ======
===== 母集団と標本抽出 =====
調査したい集団全体のことを__**母集団**__という。
母集団は要素の集まりで、母集団の要素の分布のことを__**母集団分布**__という。
母集団を知るということは、母集団分布を知ることである。
母集団をすべて調査することを__**全数調査**__または__**悉皆(しっかい)調査**__という。
これに対し、母集団の一部を取りだして調査することを__**標本調査**__という。
全数調査であれば、母集団に属する要素の全てを調査するので母集団分布が分かる。
しかし、時間的、費用的、労力的な理由で全数調査が難しい場合は標本調査が行われる。
標本調査では、取りだした要素を__**標本(サンプル)**__といい、要素を取り出すことを__**標本抽出(サンプリング)**__という。
標本抽出で基本となるのは、各要素を全て等しい確率で無作為に取り出す__**無作為標本抽出**__である。
偏りがない標本抽出によって標本は母集団のよい縮図となり、確率的に母集団を推測することが可能となる。
無作為標本抽出の分かりやすい例はサイコロである。
サイコロ1個を人の意志が入らないように壁などに当てて転がして出た目は、要素が $1,2,3,4,5,6$ の母集団から一つの値を無作為抽出するのと同じである。
統計学では、母集団分布を確率分布とみなして、標本はその確率分布を持つ確率変数 $X$ として扱う。
この $X$ を使って母集団の平均や分散を__**推定**__したり、__**仮説検定**__するのが標本抽出の目的である。
{{ sampling.png?nolink |標本抽出}}
===== 母数と統計量 =====
母集団分布の特徴を表す代表値や散らばりの尺度を__**母数(パラメーター)**__という。
よく使われるのは以下の母数である。
* __**母平均**__(母集団の平均) $\mu$
* __**母分散**__(母集団の分散) $\sigma^{2}$
* __**母標準偏差**__(母集団の標準偏差) $\sigma=\sqrt{\sigma^{2}}$
標本は母集団の一部でしかないため、標本だけで母集団分布の全てを知ることはできない。
標本から推定できるのは母集団の母数である。
母数の推定に使われる標本の指標を__**統計量**__という。
今、母集団から $n$ 個の標本 $X_{1},X_{2},\cdots,X_{n}$ を無作為抽出したとする。
母平均 $\mu$ の推定に使われる統計量は__**標本平均**__ $\bar{X}$ である。
\[
\bar{X}=\frac{X_{1}+X_{2}+\cdots+X_{n}}{n}=\frac{1}{n}\sum_{i=1}^{n}X_{i}
\]
母分散 $\sigma^{2}$ の推定に使われる統計量は__**不偏分散**__ $s^{2}$ である。
\[
s^{2}=\frac{(X_{1}-\bar{X})^{2}+(X_{2}-\bar{X})^{2}+\cdots+(X_{n}-\bar{X})^{2}}{n-1}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}
\]
標本平均 $\bar{X}$ の期待値は母平均 $\mu$、不偏分散 $s^{2}$ の期待値は母分散 $\sigma^{2}$ になる(($s^{2}$ の期待値が $\sigma^{2}$ になるために $s^{2}$ の分母は $n-1$ としてある。))。
\[
E(\bar{X})=\mu
\]
\[
E(s^{2})=\sigma^{2}
\]
$E(X_{i})=\mu$ とする。
\begin{eqnarray*}
E(\bar{X})&=&E\left(\frac{1}{n}\sum_{i=1}^{n}X_{i}\right)\\
&=&\frac{1}{n}\sum_{i=1}^{n}E(X_{i})\\
&=&\frac{1}{n}\sum_{i=1}^{n}\mu\\
&=&\mu
\end{eqnarray*}
$E(X_{i})=\mu$, $E((X_{i}-\mu)^{2})=\sigma^{2}$, $E((X_{i}-\mu)(X_{j}-\mu))=0\quad (i\neq j)$ とする。
\begin{eqnarray*}
E(s^{2})&=&E\left(\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}\right)\\
&=&\frac{1}{n-1}\sum_{i=1}^{n}E((X_{i}-\bar{X})^{2})\\
&=&\frac{1}{n-1}\sum_{i=1}^{n}E((Y_{i}-\bar{Y})^{2})\\
&=&\frac{1}{n-1}\sum_{i=1}^{n}\left\{E(Y_{i}^{2})+E(\bar{Y}^{2})-2E(Y_{i}\bar{Y})\right\}\\
&=&\frac{1}{n-1}\sum_{i=1}^{n}\left(\sigma^{2}+\frac{\sigma^{2}}{n}-2\frac{\sigma^{2}}{n}\right)\\
&=&\sigma^{2}
\end{eqnarray*}
ここで $Y_{i}=X_{i}-\mu$ と定義して以下を使った。
\begin{eqnarray*}
E(Y_{i})&=&0\\
E(Y_{i}^{2})&=&\sigma^{2}\\
E(Y_{i}Y_{j})&=&0\quad(i\neq j)\\
E(\bar{Y}^{2})&=&\frac{\sigma^{2}}{n}
\end{eqnarray*}
\\
期待値を計算するには母集団の確率密度関数 $f(x)$ が分かっていなければできないため、標本だけでは母数を求めることはできないが、ある確率をもって推定することはできる。
===== 母平均の推定 =====
ここでは最も簡単な母平均 $\mu$ の推定について説明する。
母数の推定方法には__**点推定**__と__**区間推定**__の二つがある。
----
==== 点推定 ====
単純に標本平均 $\bar{X}$ の値を母平均 $\mu$ の推定値とすることを__**点推定**__という。
点推定は__**大数の法則**__を根拠としている。
**大数の法則**\\
標本平均 $\bar{X}$ は $n$ が大きくなるにつれ、母平均 $\mu$ に近づく。
経験的に $n$ を増やすほど $\bar{X}$ は $\mu$ に近づくことが予想できるだろう。
=== サイコロの例 ===
例えば、サイコロ 1 個を 4 回転がして出た目を $X_{1},X_{2},X_{3}, X_{4}$ とする。
これは要素が $1,2,3,4,5,6$ の母集団から 4 個の標本を無作為標本抽出することと同じである。
A さんと B さんがそれぞれサイコロ 1 個を 4 回転がした結果、以下の通りだったとする。
^ 実験者 ^ 1回目\\ $X_{1}$ ^ 2回目\\ $X_{2}$ ^ 3回目\\ $X_{3}$ ^ 4回目\\ $X_{4}$ ^ 標本平均\\ $\bar{X}$ ^
| Aさん | 5 | 1 | 3 | 1 | 2.5 |
| Bさん | 6 | 6 | 3 | 5 | 4.0 |
点推定ならば、A さんが得た推定値は $2.5$、B さんが得た推定値は $4.0$ ということになる。
同じ条件で同じ回数だけ標本抽出を行ったとしても、Aさんと B さんで得られる標本は異なったので、それによって推定値も異なっている。
サイコロ1個を転がして出る目の平均は理論的には $\mu=3.5$ である($X_{i}$ の期待値)。
しかし、上の実験では 4 回しか転がしていないので A さんも B さんも標本平均は 3.5 からズレた値になっている。
転がす回数 $n$ を増やせば増やすほど $\mu=3.5$ に近い $\bar{X}$ が得やすくなるというのが大数の法則である。
点推定は標本から $\bar{X}$ を求めるだけなのでお手軽だが、$\bar{X}$ の値がどのくらい $\mu$ の真の値に近いのかは分からない。
----
==== 区間推定 ====
点推定のように $\mu$ を $\bar{X}$ の値一つで推定するのではなく、ある確率 $1-\alpha$ で $\mu$ が含まれる区間を推定するのが__**区間推定**__である。
具体的には
\[
P(L\le \mu\le U)=1-\alpha
\]
を満たす区間 $[L,U]$ を求めることである。
$[L, U]$ を $1-\alpha$ の__**信頼区間**__という。
確率 $1-\alpha$ は__**信頼係数**__といい、我々が恣意的に(好きなように)設定してよい確率である。
信頼係数には 0.9(90%), 0.95(95%), 0.99(99%)が良く使われる。
信頼区間は標本から確率的に推定するので、標本の統計量の確率分布(__**標本分布**__)が必要になる。
標本分布を知るためには、その元となる母集団分布を知らなくてはならないが、そもそも母集団を知らないから標本を使うのであって、あらかじめ母集団分布を知ることはできない。
しかし、母集団分布を知らなくても $n$ が大きければ__**中心極限定理**__によって $\bar{X}$ の標本分布は近似的に正規分布になることが分かる。
__**中心極限定理**__\\
母平均 $\mu$、母分散 $\sigma^{2}$ の母集団があるとする。この母集団がどのような分布((一部例外はある。))でも、$\bar{X}$ の標本分布は(近似的に)$\mathrm{N}(\mu,\sigma^{2}/n)$ になる。母集団が正規分布の場合は $n$ に関わらず厳密にいえるが、それ以外の分布の場合は $n$ が大きいほど近似は良くなる。
中心極限定理では $\bar{X}$ の標本分布が $\mathrm{N}(\mu,\sigma^{2}/n)$ になるというところが重要である。
分散が $\sigma^{2}$ ではなく $\sigma^{2}/n$ のため、$n$ が大きくなるにつれて分散が小さくなり、$\bar{X}=\mu$ となる確率が高くなる。
これは大数の法則で述べていることでもある。
{{ data_literacy_past:2022:clt.png?nolink |中心極限定理と大数の法則}}
=== 母分散が既知の場合 ===
母分散 $\sigma^{2}$ があらかじめ分かっている(既知)とする。
中心極限定理から、$n$ が大きければ $\bar{X}$ は(近似的に) $\mathrm{N}(\mu,\sigma^{2}/n)$ に従う。
$\mathrm{N}(\mu,\sigma^{2}/n)$ の中心に $1-\alpha$ の確率をとり、その両端の確率を $\alpha/2$ ずつに分けると確率の式は以下のようになる(標準化を利用)。
\[
P\left(\mu-Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\le \bar{X}\le \mu+Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right)=1-\alpha
\]
ここで $Z_{\alpha/2}$ は、$\mathrm{N}(0,1)$ における右側(上側)確率 $\alpha/2$ のパーセント点である。
$\mathrm{N}(\mu,\sigma^{2}/n)$ に従う $\bar{X}$ を標準化すると
\[
Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}
\]
は $\mathrm{N}(0,1)$ に従う。
$Z_{\alpha/2}$ は確率と
\[
P(-Z_{\alpha/2}\le Z\le Z_{\alpha/2})=1-\alpha
\]
という関係にある。
{{ estimation1.png?nolink |標準正規分布の区間推定}}
かっこの中の不等式は標準化の式を使うと
\[
-Z_{\alpha/2}\le \frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\le Z_{\alpha/2}
\]
となり、これを変形すると
\[
\mu-Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\le \bar{X}\le \mu+Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}
\]
となる。
{{ estimation2.png?nolink |正規分布の区間推定}}
かっこの中の不等式を変形して $\mu$ をはさむような不等式にすると
\[
P\left(\bar{X}-Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\le \mu\le \bar{X}+Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right)=1-\alpha
\]
となる。
したがって信頼区間は
\[
[L,U]=
\left[\bar{X}-Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \bar{X}+Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right]
\]
で求められる。
=== 母分散が未知の場合 ===
母分散 $\sigma^{2}$ が分かっていない場合は、代わりに標本から求められる不偏分散 $s^{2}$ を使う。
$n$ が大きい場合は、大数の法則により $\sigma^{2}$ は不偏分散 $s^{2}$ とほぼ等しいとみなせるため、
$\sigma^{2}\simeq s^{2}$ ($\sigma\simeq s$)と近似して母集団が既知の場合の信頼区間を使うことができる。
\[
[L,U]=
\left[
\bar{X}-Z_{\alpha/2}\frac{s}{\sqrt{n}},
\bar{X}+Z_{\alpha/2}\frac{s}{\sqrt{n}}
\right]
\]
ここで $s=\sqrt{s^{2}}$ は不偏標準偏差である。
=== サイコロの例 ===
サイコロ 1 個を 4 回転がして得られた標本から母平均 $\mu$ の信頼係数 90%($1-\alpha=0.9$)の信頼区間の推定を行う。
簡単のために母分散 $\sigma^{2}=\frac{35}{12}$(母標準偏差 $\sigma=\sqrt{\frac{35}{12}}$)として、**母分散は既知**とする。
A さんと B さんがそれぞれサイコロ 1 個を 4 回転がした結果、以下の通りだったとする。
^ 実験者 ^ 1回目\\ $X_{1}$ ^ 2回目\\ $X_{2}$ ^ 3回目\\ $X_{3}$ ^ 4回目\\ $X_{4}$ ^ 標本平均\\ $\bar{X}$ ^
| Aさん | 5 | 1 | 3 | 1 | 2.5 |
| Bさん | 6 | 6 | 3 | 5 | 4.0 |
これより、信頼係数 90% の信頼区間は
\begin{eqnarray*}
A さん && [L,U]=[2.5-1.4, 2.5+1.4]=[1.1, 3.9]\\
B さん && [L,U]=[4.0-1.4, 4.0+1.4]=[2.6, 5.4]
\end{eqnarray*}
となる。
ここで $1-\alpha=0.90$ より $\alpha/2=0.05$ なので
\[
Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}
\simeq 1.64\times\frac{\sqrt{\frac{35}{12}}}{\sqrt{4}}\simeq 1.4
\]
を使った。
LibreOffice Calc では「''%%=NORM.INV(1-0.05,0,1)*SQRT(35/12)/SQRT(4)%%''」 で計算できる。
^ 数式 ^ LibreOffice Calc ^
| $Z_{0.05}$ | ''NORM.INV(1-0.05,0,1)'' |
| $\frac{\sqrt{\frac{35}{12}}}{\sqrt{4}}$ | ''SQRT(35/12)/SQRT(4)'' |
----
==== 信頼係数の意味 ====
信頼区間は、信頼係数 $1-\alpha$ と $n$ と抽出した標本によって求まる。
以下の図は A さん、B さん、C さん、・・・がそれぞれ同じ条件で標本を無作為抽出して得られた信頼区間を縦棒で表したものである。
{{ confidence_interval.png?nolink |信頼区間}}
無作為抽出なので、人によって標本が異なり、それによって信頼区間も異なる。
この図だと、結果的に D さん以外は $\mu$ を含む信頼区間が推定できていることになる。
信頼係数は、どのくらいの人が $\mu$ を含む信頼区間を標本から得られるかを決める確率といえる。
例えば、100人がそれぞれ同じ条件で標本を無作為抽出して 95% の信頼区間を求めたとすると、95 人は $\mu$ を含む信頼区間が推定できても 5 人は外れる可能性があるということである。
信頼係数が大きいほど信頼区間は広くなり(つまり、上図の縦棒が長くなり)、 $\mu$ から外れる可能性は低くなる。
しかし、信頼区間が広がると $\mu$ の推定の誤差が大きくなるので、信頼係数をむやみに大きくすれば良いというものでもない。
信頼区間を狭くして推定の誤差を小さくするには、標本を多く抽出するのが良い。
例えば、標本サイズ $n$ を 9 倍にすると、信頼区間の幅は $1/\sqrt{9}=1/3$ 倍になり、推定の誤差が小さくなる。
===== 演習:標本抽出と推定 =====
* 使用するデータセット:[[dataset#データセット1]]
500人の身長のデータを母集団とみなす。
この母集団から 20人の標本($n=20$)を無作為抽出し、その標本から信頼係数 90%($1-\alpha=0.90$)の信頼区間を求める。
**母分散は未知**とする。
20 人の標本抽出(復元抽出)は以下のようにして行う。
- [[dataset#データセット1]] のシートを開く。
- セル G1 に「標本番号」、H1に「身長[cm]」と入力する。
- セル G2 に「''=RANDBETWEEN(1,500)''」と入力する。\\ これは 1 から 500 までの整数の乱数を発生させる。
- セル H2 に「''=VLOOKUP(G2,A$2:E$501,4,0)''」と入力する。\\ これはセル A2 から E501 の範囲において、1列目から G2 の番号を検索し、マッチした行の 4 列目から値を取り出している。
- セル G2 と H2 を 3行目から 21行目までコピー&ペーストする。
- セル G22 に「標本平均」と入力する。
- セル H22 に「''=AVERAGE(H2:H21)''」と入力する。
- セル G23 に「不偏標準偏差」と入力する。
- セル H23 に「''=STDEV.S(H2:H21)''」と入力する。
これで列 H に20人の身長のデータが無作為標本抽出され、セル H22 に標本平均 $\bar{X}$、セル H23 に不偏標準偏差 $s$ が求められる。
$n$ が大きいので $s$ を $\sigma$ とみなして区間推定を行う。
$1-\alpha=0.90$ より $\alpha/2=0.05$ である。
\[
[L,U]=
\left[
\bar{X}-Z_{\alpha/2}\frac{s}{\sqrt{n}},
\bar{X}+Z_{\alpha/2}\frac{s}{\sqrt{n}}
\right]
=\left[
\bar{X}-Z_{0.05}\frac{s}{\sqrt{20}},
\bar{X}+Z_{0.05}\frac{s}{\sqrt{20}}
\right]
\]
- セル G25 に「信頼区間」、G26 に「L」、G27に「U」と入力する。
- セル H26 に「''=H22-NORM.INV(1-0.05,0,1)*H23/SQRT(20)''」と入力すると $L$ が求められる。
- セル H27 に「''=H22+NORM.INV(1-0.05,0,1)*H23/SQRT(20)''」と入力すると $U$ が求められる。
空のセルに「''=AVERAGE(D2:D501)''」と入力して身長の母平均 $\mu$ を計算し、求めた信頼区間と比較してみよう。
----
==== RANDBETWEEN 関数 ====
^ 関数 ^ 説明 ^
| RANDBETWEEN(最小値,最大値) | 最小値以上、最大値以下の範囲の整数の乱数を発生する。 |
シートで何か作業をしたり、再計算(F9を押す)のたびに乱数発生が行われる。
----
==== VLOOKUP 関数 ====
^ 関数 ^ 説明 ^
| VLOOKUP(検索値,範囲,列番号,検索の型) | 範囲の1列目から検索値を検索し、マッチした行の列番号の列から値を取り出す。\\ 検索の型が0なら完全に一致するもの、1なら近似的に一致するものを検索する。 |
===== 課題 =====
[[dataset#データセット1]] において、500人の**体重**のデータを母集団とみなす。
演習と同様にこの母集団から 30人の標本($n=30$)を無作為抽出し、その標本から信頼係数 95%($1-\alpha=0.95$)の信頼区間を求めなさい。
**母分散は未知**とする。
作成したファイルは ODF 表計算ドキュメント(拡張子 .ods)で提出すること。