====== 【データリテラシー】第7回 データの分布と標本抽出 ======
ある集団について調べたいとき、その集団全体を調べることが難しい場合がある。
そのような場合、その集団から一部分だけを選び出して調べることで集団について推測を行うことができる。
これを__**推測統計**__という。
推測統計は確率論に基づいて行う。
したがって、推測統計を行うには確率や確率分布について知らなくてはならない。
===== 事象と確率 =====
確率を考えるときに起こりうる事柄を__**事象**__という。
__**確率**__とは事象の起こりやすさを定量的に表したものである。
今考えている全ての事象に同程度に起こりやすい場合の数が $n$ 通りあるとする。
その中で、ある事象 $A$ に含まれる場合の数が $k$ 通りあるとき、$A$ の起こる確率 $P(A)$ は以下で定義される。
\[
P(A)=\frac{k}{n}
\]
=== サイコロの例 ===
例として、サイコロ1個を転がして出る目を考える。
サイコロの目は $1,2,3,4,5,6$ の 6 通りで、理想的なサイコロであればいずれの目も同程度に出やすい。
$3$ の目は 1 通りなので、3 の目が出る確率は
\[
P(3の目)=\frac{1}{6}
\]
である。
$2, 3, 4$ の目は 3 通りなので、$2, 3, 4$ のいずれかの目が出る確率は
\[
P(2, 3, 4 の目)=\frac{3}{6}=\frac{1}{2}
\]
である。
===== 確率変数 =====
観測したいものを変数 $X$ とし、それを観測したときにある確率で観測値 $x$ が得られるとする。
この確率を
\[
P(X=x)
\]
で表す。
また、$a$ 以上 $b$ 以下の範囲の観測値が得られる確率を
\[
P(a\le X\le b)
\]
で表す。
大文字で表す変数 $X$ は、単なる変数ではなく、**確率をともなう変数**という意味で__**確率変数**__という。
確率変数でとびとびの値しかとらないものを__**離散型確率変数**__、連続的な値をとるものを__**連続型確率変数**__という。
=== サイコロの例 ===
例として、サイコロ1個を転がして出る目を考える。
サイコロの目を確率変数 $X$ で表すと、$X$ が取り得る値は $1,2,3,4,5,6$ である。
サイコロの目はこのとびとびの値しかとらないため、$X$ は離散型である。
理想的なサイコロであれば、それぞれの目が出る確率は等しく
\begin{eqnarray*}
1の目が出る確率\ P(X=1)&=&\frac{1}{6}\\
2の目が出る確率\ P(X=2)&=&\frac{1}{6}\\
3の目が出る確率\ P(X=3)&=&\frac{1}{6}\\
4の目が出る確率\ P(X=4)&=&\frac{1}{6}\\
5の目が出る確率\ P(X=5)&=&\frac{1}{6}\\
6の目が出る確率\ P(X=6)&=&\frac{1}{6}
\end{eqnarray*}
である。
$2, 3, 4$ のいずれかの目が出る確率は
\[
P(2\le X\le 4)=P(X=2)+P(X=3)+P(X=4)=\frac{1}{6}+\frac{1}{6}+\frac{1}{6}=\frac{1}{2}
\]
である。
===== 確率分布 =====
確率変数 $X$ は観測値 $x$ によって様々な確率をとる。
この確率の分布を__**確率分布**__といい、
確率分布を関数として表したものを__**確率密度関数**__ $f(x)$ という。
\[
f(x)=P(X=x)
\]
連続型変数の確率密度関数 $f(x)$ を $y=f(x)$ のグラフで表すと以下のようになる。
{{ probability.png?nolink |確率分布}}
確率密度関数のグラフでは、$x$ 軸と $f(x)$ ではさまれた**面積が確率**になる。
グラフの緑色の面積は $P(a\le X\le b)$ を表している。
確率密度関数 $f(x)$ は次の性質を持たなくてはならない。
* $0\le f(x)\le 1$
* $x$ 軸と $f(x)$ ではさまれた全面積は 1 (全確率は 1)
$f(x)$ によって確率分布の形状は様々であるが、代表的な確率分布には名前がついている。
* 一様分布
* 二項分布
* 正規分布
* スチューデントの t 分布
* $\chi^{2}$(カイ二乗) 分布
* F 分布
* その他
=== サイコロの例 ===
例として、サイコロ1個を転がして出る目の確率分布を考える。
サイコロの目を確率変数 $X$ で表し、実際にサイコロを転がして出た目の観測値を $x$ とする。
それぞれの目は等しい確率で出るので、その確率密度関数は
\[
f(x)=P(X=x)=\frac{1}{6}
\]
である。
この確率密度関数をグラフで表すと以下の図になる。
{{ uniform_dist1.png?nolink |サイコロの確率分布}}
このようなすべての確率が等しく一様な確率分布を__**一様分布**__という。
全ての目の確率を足し合わせると 1 になる。
\begin{eqnarray*}
\sum_{x=1}^{6}f(x)&=&f(1)+f(2)+f(3)+f(4)+f(5)+f(6)\\
&=&\frac{1}{6}+\frac{1}{6}+\frac{1}{6}+\frac{1}{6}+\frac{1}{6}+\frac{1}{6}\\
&=&1
\end{eqnarray*}
===== 期待値 =====
確率分布は分布なので、代表値と散らばりの尺度でその分布の特徴を表すことができる。
確率分布の平均は $\mu$(ミュー)、分散は $\sigma^{2}$ (シグマ二乗)、標準偏差は $\sigma$ (シグマ)という記号で表されることが多い。
確率分布の平均と分散は__**期待値**__で表される。
離散型確率変数 $X$ のある関数を $g(X)$ としたとき、$g(X)$ の期待値 $E(g(X))$ は以下で定義される。
\[
E(g(X))=\sum_{i=1}^{n}g(x_{i})f(x_{i})\quad (X が離散型)
\]
$x$ のとりうる値 $x_{i}$ それぞれに対する $g(x_{i})$ に重み $f(x_{i})$ をかけて和をとる。
連続型確率変数 $X$ については、$g(X)$ の期待値は積分で定義される。
\[
E(g(X))=\int g(x)f(x)dx\quad (X が連続型)
\]
\\
確率変数 $X$ の確率分布の平均 $\mu$ は $X$ の期待値($g(X)=X$ の場合の期待値)である。
\[
\mu=E(X)
\]
同様に、分散 $\sigma^{2}$ は平均からのずれの二乗 $(X-\mu)^{2}$ の期待値($g(X)=(X-\mu)^{2}$ の期待値)である。
\[
\sigma^{2}=E((X-\mu)^{2})
\]
標準偏差 $\sigma$ は分散 $\sigma^{2}$ の平方根(ルート)である。
\[
\sigma=\sqrt{\sigma^{2}}=\sqrt{E((X-\mu)^{2}))}
\]
=== サイコロの例 ===
例として、サイコロ1個を転がして出る目の期待値を計算する。
平均 $\mu$ の計算
\begin{eqnarray*}
\mu&=&E(X)\\
&=&\sum_{x=1}^{6}xf(x)\\
&=&1\times\frac{1}{6}+2\times\frac{1}{6}+3\times\frac{1}{6}+4\times\frac{1}{6}+5\times\frac{1}{6}+6\times\frac{1}{6}\\
&=&(1+2+3+4+5+6)\times\frac{1}{6}\\
&=&\frac{7}{2}\\
&=&3.5
\end{eqnarray*}
サイコロ1個を転がして出る目は平均 3.5 が期待されるということである。
分散 $\sigma^{2}$ の計算
\begin{eqnarray*}
\sigma^{2}&=&E((X-\mu)^{2})\\
&=&\sum_{x=1}^{6}(x-\mu)^{2}f(x)\\
&=&\left(1-\frac{7}{2}\right)^{2}\times\frac{1}{6}+\left(2-\frac{7}{2}\right)^{2}\times\frac{1}{6}+\left(3-\frac{7}{2}\right)^{2}\times\frac{1}{6}+\\
&&+\left(4-\frac{7}{2}\right)^{2}\times\frac{1}{6}+\left(5-\frac{7}{2}\right)^{2}\times\frac{1}{6}+\left(6-\frac{7}{2}\right)^{2}\times\frac{1}{6}\\
&=&\left[\left(1-\frac{7}{2}\right)^{2}+\left(2-\frac{7}{2}\right)^{2}+\left(3-\frac{7}{2}\right)^{2}\right.\\
&&\left.+\left(4-\frac{7}{2}\right)^{2}+\left(5-\frac{7}{2}\right)^{2}+\left(6-\frac{7}{2}\right)^{2}\right]\times\frac{1}{6}\\
&=&\frac{35}{12}
\end{eqnarray*}
標準偏差 $\sigma$ の計算
\[
\sigma=\sqrt{\sigma^{2}}=\sqrt{\frac{35}{12}}\simeq 1.7
\]
===== パーセント点 =====
確率分布において、ある点から右側(上側)の確率が $\alpha$ (アルファ)となる点を__**右側(上側)確率 $\alpha$ の パーセント点**__という。
$\alpha$ は確率なので $0\le\alpha\le 1$ である。
確率分布の全確率は 1 という性質を使うと、このパーセント点から左側(下側)の確率は $1-\alpha$ になる。
\[
1=(1-\alpha)+\alpha
\]
{{ percent_point.png?nolink |パーセント点}}
===== 正規分布 =====
==== 正規分布の定義 ====
連続型確率変数の代表的な確率分布として__**正規分布**__がある。
**正規分布は統計学においては最も重要な確率分布である。**
正規分布の確率密度関数は以下で定義される。
\[
f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}}
\]
ここで $\mu, \sigma$ は分布の形を決めるパラメータである。
$e=2.71828\cdots$ は__**ネイピア数**__といい、無限に続く無理数である((似た性質の定数に円周率 $\pi=3.1415926\cdots$ がある。))。
$x$ はどのような実数値もとりうる。
この確率密度関数のグラフの特徴は以下の通りである。
* 釣鐘のような形をしている。
* $x=\mu$ を中心として左右対称の形をしている。
* $\sigma$ が大きいほど頂点が低くなりすそ野が広くなる。
この確率分布の平均は $\mu$、分散は $\sigma^{2}$、標準偏差は $\sigma$ なので、計算する必要はない。
分布の形は $\mu$, $\sigma$ という二つのパラメータで決まるため、正規分布のことを記号 $\mathrm{N}(\mu,\sigma^{2})$ で表す。
特に $\mu=0$、$\sigma^{2}=1$ の正規分布 $\mathrm{N}(0,1)$ を__**標準正規分布**__ という。
{{ normal_dist_graph1.png?nolink |正規分布}}
$\mathrm{N}(\mu,\sigma^{2})$ に従う確率変数 $X$ から
\[
Z=\frac{X-\mu}{\sigma}
\]
という変数変換を行うと、$Z$ は $\mathrm{N}(0,1)$ に従う確率変数になる。
この変換を__**標準化**__という。
\[
E(Z)=E\left(\frac{X-\mu}{\sigma}\right)=\frac{E(X)-\mu}{\sigma}=0
\]
\[
E(Z^{2})=E\left(\frac{(X-\mu)^{2}}{\sigma^{2}}\right)=\frac{E((X-\mu)^{2})}{\sigma^{2}}=1
\]
\\
逆に $\mathrm{N}(0,1)$ に従う確率変数 $Z$ から
\[
X=\mu+Z\sigma
\]
という変数変換を行うと、$X$ は $\mathrm{N}(\mu,\sigma^{2})$ に従う確率変数になる。
----
==== 正規分布の期待値 ====
$\mathrm{N}(\mu,\sigma^{2})$ は連続型変数の分布なので、期待値は積分を使って計算される。
ただし、平均は $\mu$、分散は $\sigma^{2}$ になるように分布が定義されているので、平均と分散は期待値から計算する必要がない。
\[
\mu=E(X)
\]
\[
\sigma^{2}=E((X-\mu)^{2})
\]
----
==== 正規分布の関数 ====
正規分布に関係する表計算ソフトの関数は以下の通り。
^ 関数 ^ 説明 ^
| NORM.DIST(x, μ, σ, 関数形式) | $x$ における $\mathrm{N}(\mu,\sigma^{2})$ の関数の値を返す。\\ 関数形式が 0 なら確率密度関数、1 なら累積分布関数になる。 |
| NORM.INV(p, μ, σ) | 左側(下側)確率 $p$ における $\mathrm{N}(\mu,\sigma^{2})$ の累積分布関数の逆関数の値を返す。 |
{{ normal_dist_func.png?nolink |正規分布についての関数}}
----
==== 正規分布のパーセント点 ====
$\mathrm{N}(\mu,\sigma^{2})$ における右側(上側)確率 $\alpha$ のパーセント点は、全確率が 1 ということから「''%%=NORM.INV(1-α,μ,σ)%%''」で求められる。
NORM.INV 関数の引数は $\sigma^{2}$ ではなく、その平方根(ルート)である $\sigma$ なので注意する。
{{ normal_dist_pp.png?nolink |正規分布のパーセント点}}
例えば、$\mathrm{N}(5,9)$ における右側(上側)確率 $\alpha=0.05$(5%) のパーセント点は、空いているセルに「''%%=NORM.INV(1-0.05,5,3)%%''」と入力した結果、$9.93$ (小数第3位を四捨五入)であることが分かる。
=== 標準正規分布 ===
$\mathrm{N}(0,1)$ における右側(上側)確率 $\alpha$ のパーセント点は $Z_{\alpha}$ で表し、「''%%=NORM.INV(1-α,0,1)%%''」で求められる。
例えば、$\mathrm{N}(0,1)$ における右側(上側)確率 $\alpha=0.05$(5%) のパーセント点 $Z_{0.05}$ は、空いているセルに「''%%=NORM.INV(1-0.05,0,1)%%''」と入力した結果、$Z_{0.05}\simeq 1.64$ (小数第3位を四捨五入)であることが分かる。
{{ normal_dist_spp.png?nolink |標準正規分布のパーセント点}}
===== 演習:正規分布のグラフ =====
$\mathrm{N}(171, 5.5^{2})$ のグラフを散布図で描く。
=== データの作成 ===
- LibreOffice Calc の新規作成で新しいシートを開く。
- セル A1 に「x」、B1 に「f(x)」と入力する。これから A列に $x$、B列に $f(x)$ のデータを入力する。
- セル A2 に「150」、B2 に「''=NORM.DIST(A2,171,5.5,0)''」と入力する。
- セル A2 と B2 を選択し、B2 の右下の角をクリックして44行目までドラッグする。
* $x$:A2 から A44 の値が「150」から「192」となる。この場合 $x$ の間隔は 1 である。
* $f(x)$:B2 から B44 の値が $f(x)$ の計算値になる。
=== グラフの作成 ===
- セル A1 から B44 の範囲を選択する。
- メニューバーの ''**[挿入]**''%%→%%''**[グラフ]**'' を選択して「グラフウィザード」のダイアログを表示する。
=== ① グラフの種類 ===
- ''**[散布図]**'' を選択する。
- 右側の4つある種類から ''**[線のみ]**'' を選択する。
- ''**[次へ]**'' をクリックする。
=== ② データ範囲 ===
はじめにデータ範囲を指定したので、ここでは何もしなくてよい。
- ''**[次へ]**'' をクリックする。
=== ③ データ系列 ===
データ範囲から自動的に X 値と Y 値が設定される。
- 「データ範囲」の ''**[名前]**'' をクリックし、「名前の範囲」に「全体」と入力する。
- ''**[次へ]**'' をクリックする。
=== ④ グラフ要素 ===
- 「タイトル」に「N(171,5.5^2)」と入力する。
- 「X 軸」に「x」と入力する。
- 「Y 軸」に「f(x)」と入力する。
- 「目盛線を表示」の ''**[X軸]**'' と ''**[Y軸]**'' にチェックを入れる。
- ''**[完了]**'' をクリックする。
これで散布図が描かれる。
{{ normal_dist_graph2.png?nolink |N(171,5.5^2)のグラフ}}
===== 演習:正規分布のパーセント点 =====
ある大学の学生の身長の分布は $\mathrm{N}(171, 5.5^{2})$ とみなせるとする(身長の単位は cm)。
=== 上位25%の学生の身長 ===
上位25%の学生の身長は何cm 以上かを求めよう。
- 上位25% ということは $\mathrm{N}(171, 5.5^{2})$ の右側(上側)確率 $\alpha=0.25$ とみなせばよい。
- $\alpha=0.25$ なので $1-\alpha=1-0.25$ として、LibreOffice Calc の空のセルに「''%%=NORM.INV(1-0.25,171,5.5)%%''」と入力する。
- 結果は四捨五入で 174.7 なので 174.7cm 以上の学生が上位25%ということが分かる。
=== 下位25%の学生の身長 ===
下位25%の学生の身長は何cm 以下かを求めよう。
- 下位25% ということは $\mathrm{N}(171, 5.5^{2})$ の右側(上側)確率 $\alpha=1-0.25$ とみなせばよい。
- $\alpha=1-0.25$ なので $1-\alpha=0.25$ として、LibreOffice Calc の空のセルに「''%%=NORM.INV(0.25,171,5.5)%%''」と入力する。
- 結果は四捨五入で 167.3 なので 163.7cm 以下の学生が上位25%ということが分かる。
$\mathrm{N}(171, 5.5^{2})$ は $x=171$ で左右対称なので
\[
174.7=171+3.7
\]
\[
167.3=171-3.7
\]
となっていることが分かる。
{{ normal_dist_graph3.png?nolink |N(171,5.5^2)の確率}}
===== 母集団と標本抽出 =====
調査したい集団全体のことを__**母集団**__という。
母集団は要素の集まりで、母集団の要素の分布のことを__**母集団分布**__という。
母集団を知るということは、母集団分布を知ることである。
母集団をすべて調査することを__**全数調査**__または__**悉皆(しっかい)調査**__という。
これに対し、母集団の一部を取りだして調査することを__**標本調査**__という。
=== 全数調査の例 ===
* [[https://www.stat.go.jp/data/kokusei/2020/index.html|国勢調査]](調査対象は日本に住んでいるすべての人及び世帯)
* [[https://www.mext.go.jp/b_menu/toukei/chousa01/kihon/1267995.htm|学校基本調査]](調査対象は全国の幼稚園と学校)
=== 標本調査の例 ===
* [[https://www.stat.go.jp/data/kakei/|家計調査]](調査対象は全国の約9千世帯)
* [[https://www.nhk.or.jp/senkyo/shijiritsu/|世論調査(NHK)]](調査対象は全国の18歳以上の約2千人)
* [[https://www.videor.co.jp/service/media-data/tvrating.html|視聴率(ビデオリサーチ)]]
全数調査であれば、母集団に属する要素の全てを調査するので母集団分布が分かる。
しかし、時間的、費用的、労力的な理由で全数調査が難しい場合は標本調査が行われる。
標本調査では、取りだした要素を__**標本(サンプル)**__といい、要素を取り出すことを__**標本抽出(サンプリング)**__という。
標本抽出で基本となるのは、各要素を全て等しい確率で無作為に取り出す__**無作為標本抽出**__である。
偏りがない標本抽出によって標本は母集団のよい縮図となり、確率的に母集団を推測することが可能となる。
無作為標本抽出の分かりやすい例はサイコロである。
サイコロ1個を人の意志が入らないように壁などに当てて転がして出た目は、要素が $1,2,3,4,5,6$ の母集団から一つの値を無作為抽出するのと同じである。
統計学では、母集団分布を確率分布とみなして、標本はその確率分布を持つ確率変数 $X$ として扱う。
この $X$ を使って母集団の平均や分散を__**推定**__したり、__**仮説検定**__するのが標本抽出の目的である。
{{ sampling.png?nolink |標本抽出}}
===== 課題 =====
$\mathrm{N}(0,1)$ のグラフを散布図で描きなさい。
$x$ の最大値と最小値は $f(x)<0.0001$ となるように取り、$x$ の間隔はグラフがなめらかになるように考えること。
ヒント:演習では $x$ を 150 から 192 まで 1 ずつ増やした。$\mathrm{N}(0,1)$ では $x$ を例えば -5 から 5 まで 0.2 ずつ増やすと良い。
作成したファイルは ODF 表計算ドキュメント(拡張子 .ods)で提出すること。