【データリテラシー】第7回 データの分布と推定
ある集団について調べたいとき、その集団全体を調べることが難しい場合がある。 そのような場合、その集団から一部分だけを選び出して調べることで集団について推測を行うことができる。 これを推測統計という。
推測統計は確率論に基づいて行う。 したがって、推測統計を行うには、まず、確率や確率分布について知らなくてはならない。
確率変数
観測したいものを変数 $X$ とし、それを観測したときにある確率で観測値 $x$ が得られるとする。 この確率を \[ P(X=x) \] で表す。
また、$a$ 以上 $b$ 以下の範囲の観測値が得られる確率を \[ P(a\le X\le b) \] で表す。
大文字で表す変数 $X$ は、単なる変数ではなく、確率をともなう変数という意味で確率変数という。
サイコロの例
例として、サイコロ1個を転がして出る目を考えよう。
サイコロの目を確率変数 $X$ で表すと、$X$ が取り得る値は $1,2,3,4,5,6$ である。 サイコロの目はこのとびとびの値しかとらないため、$X$ は離散型変数である。 理想的なサイコロであれば、それぞれの目が出る確率が等しいので \begin{eqnarray*} 1の目が出る確率\ P(X=1)&=&\frac{1}{6}\\ 2の目が出る確率\ P(X=2)&=&\frac{1}{6}\\ 3の目が出る確率\ P(X=3)&=&\frac{1}{6}\\ 4の目が出る確率\ P(X=4)&=&\frac{1}{6}\\ 5の目が出る確率\ P(X=5)&=&\frac{1}{6}\\ 6の目が出る確率\ P(X=6)&=&\frac{1}{6} \end{eqnarray*} である。
これより、例えば $2, 3, 4$ のいずれかの目が出る確率は \[ P(2\le X\le 4)=P(X=2)+P(X=3)+P(X=4)=\frac{1}{6}+\frac{1}{6}+\frac{1}{6}=\frac{1}{2} \] である。
確率分布
確率変数 $X$ は観測値 $x$ によって様々な確率をとる。 この確率の分布を確率分布といい、 確率分布を関数として表したものを確率密度関数 $f(x)$ という。 \[ f(x)=P(X=x) \]
ある確率密度関数 $f(x)$ を $y=f(x)$ のグラフで表すと以下のようになる。
グラフでは $x$ 軸と $f(x)$ ではさまれた面積が確率になる。 グラフの緑色の面積は $P(a\le X\le b)$ を表している。
確率密度関数 $f(x)$ は次の性質を持たなくてはならない。
- $0\le f(x)\le 1$
- $x$ 軸と $f(x)$ ではさまれた全面積は 1 (全確率は 1)
$f(x)$ によって確率分布の形状は様々であるが、代表的な確率分布には名前がついている。
- 一様分布
- 二項分布
- 正規分布
- スチューデントの t 分布
- $\chi^{2}$(カイ二乗) 分布
- F 分布
- その他
サイコロの例
例として、サイコロ1個を転がして出る目の確率分布を考えよう。
サイコロの目を確率変数 $X$ で表し、実際にサイコロを転がして出た目の観測値を $x$ とする。 すべての目が等しい確率で出るとすれば、その確率密度関数は \[ f(x)=P(X=x)=\frac{1}{6} \] である。 この確率密度関数をグラフで表すと以下の図になる。
このようなすべての確率が等しく一様な確率分布を一様分布という。
全ての目の確率を足し合わせると 1 になる。 \begin{eqnarray*} \sum_{x=1}^{6}f(x)&=&f(1)+f(2)+f(3)+f(4)+f(5)+f(6)\\ &=&\frac{1}{6}+\frac{1}{6}+\frac{1}{6}+\frac{1}{6}+\frac{1}{6}+\frac{1}{6}\\ &=&1 \end{eqnarray*}
期待値
確率分布は分布なので、代表値と散らばりの尺度でその分布の特徴を表すことができる。
確率分布の平均は $\mu$(ミュー)、分散は $\sigma^{2}$ (シグマ二乗)という記号で表されることが多い。
確率変数 $X$ の確率分布における平均 $\mu$ は $X$ の期待値で定義される。 \[ \mu=E(X) \] $E(X)$ は $X$ の期待値という意味である。
同様に、分散 $\sigma^{2}$ は $(X-\mu)^{2}$ (平均からのずれの二乗)の期待値で定義される。 \[ \sigma^{2}=E((X-\mu)^{2}) \] $E((X-\mu)^{2})$ は $(X-\mu)^{2}$ の期待値という意味である。
サイコロの例
例として、サイコロ1個を転がして出る目の期待値を計算する。
平均 $\mu$ の計算 \begin{eqnarray*} \mu&=&E(X)\\ &=&\sum_{x=1}^{6}xf(x)\\ &=&(1+2+3+4+5+6)\times\frac{1}{6}\\ &=&\frac{7}{2}\\ &=&3.5 \end{eqnarray*}
サイコロ1個を転がして出る目は平均 3.5 が期待されるということである。
パーセント点
確率分布において、ある点から右側(上側)の確率が $\alpha$ となる点を右側(上側)確率 $\alpha$ の パーセント点という。 $\alpha$ は確率なので $0\le\alpha\le 1$ である。
確率分布の全確率は 1 という性質を使うと、このパーセント点から左側(下側)の確率は $1-\alpha$ になる。 \[ 1=(1-\alpha)+\alpha \]
正規分布
正規分布は連続型変数の代表的な分布である。 統計学において最も重要な確率分布である。
正規分布の確率密度関数は以下で定義される。 \[ f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left[-\frac{(x-\mu)^{2}}{2\sigma^{2}}\right] \] ここで $\mu, \sigma$ は分布の形を決めるパラメータである。
この確率密度関数のグラフの特徴は以下の通りである。
- 釣鐘のような形をしている。
- $x=\mu$ を中心として左右対称の形をしている。
- $\sigma$ が大きいほど頂点が低くなりすそ野が広くなる。
この確率分布の平均は $\mu$、分散は $\sigma^{2}$、標準偏差は $\sigma$ である。
分布の形は $\mu$, $\sigma$ という二つのパラメータで決まるため、正規分布のことを記号 $N(\mu,\sigma^{2})$ で表す。 特に $\mu=0$、$\sigma^{2}=1$ の正規分布 $N(0,1)$ を標準正規分布 という。
$N(\mu,\sigma^{2}$ に従う確率変数 $X$ から \[ Z=\frac{X-\mu}{\sigma} \] という変数変換を行うと、$Z$ は $N(0,1)$ に従う確率変数になる。 この変換を標準化という。
逆に $N(0,1)$ に従う確率変数 $Z$ から \[ X=\mu+Z\sigma \] という変数変換を行うと、$X$ は $N(\mu,\sigma^{2})$ に従う確率変数になる。
正規分布の関数
正規分布に関係する表計算ソフトの関数は以下の通り。
関数 | 説明 |
---|---|
NORM.DIST(x, μ, σ, 関数形式) | $x$ における $N(\mu,\sigma^{2})$ の関数の値を返す。 関数形式が 0 なら確率密度関数、1 なら累積分布関数になる。 |
NORM.INV(p, μ, σ) | 左側(下側)確率 $p$ における $N(\mu,\sigma^{2})$ の累積分布関数の逆関数の値を返す。 |
正規分布のパーセント点
$N(\mu,\sigma^{2})$ における右側(上側)確率 $\alpha$ のパーセント点は、全確率が 1 ということから「=NORM.INV(1-α,μ,σ)
」で求められる。
NORM.INV 関数の引数は $\sigma^{2}$ ではなく、その平方根(ルート)である $\sigma$ なので注意する。
例えば、$N(5,9)$ における右側(上側)確率 $\alpha=0.05$(5%) のパーセント点は、空いているセルに「=NORM.INV(1-0.05,5,3)
」と入力した結果、$9.93$ (小数第3位を四捨五入)であることが分かる。
標準正規分布
特に $N(0,1)$ における右側(上側)確率 $\alpha$ のパーセント点は $Z_{\alpha}$ で表し、「=NORM.INV(1-α,0,1)
」で求められる。
例えば、$N(0,1)$ における右側(上側)確率 $\alpha=0.05$(5%) のパーセント点 $Z_{0.05}$ は、空いているセルに「=NORM.INV(1-0.05,0,1)
」と入力した結果、$Z_{0.05}\simeq 1.64$ (小数第3位を四捨五入)であることが分かる。
母集団と標本抽出
調査したい集団全体のことを母集団という。 母集団は要素の集まりで、母集団の要素の分布のことを母集団分布という。 母集団を知るということは、母集団分布を知ることである。
母集団に属する要素の全てを観測して観測値が得られれば母集団分布が分かるので問題はない。 しかし、何らかの理由でそれができない場合は一部のみを取りだして調べるほかない。 この取りだした要素を標本(サンプル)といい、要素を取り出すことを標本抽出(サンプリング)という。
標本抽出で基本となるのは、各要素を全て等しい確率で無作為に取り出す無作為標本抽出である。 偏りがない標本抽出によって標本は母集団のよい縮図となり、確率的に母集団を推測することが可能となる。
無作為標本抽出の分かりやすい例はサイコロである。 サイコロ1個を人の意志が入らないように壁などに当てて転がして出た目は、要素が $1,2,3,4,5,6$ の母集団から一つの値を無作為抽出するのと同じである。
統計学では、母集団分布を確率分布とみなして、標本抽出は確率変数 $X$ でその母集団を観測することとみなす。
母数と統計量
母集団分布の特徴を表す代表値や散らばりの尺度を母数という。 母数の中で、平均を母平均、分散を母分散、標準偏差を母標準偏差という。
標本は母集団の一部でしかないため、標本だけで母集団分布の全てを知ることはできない。 標本から推定できるのは母集団の母数である。 母数の推測に使われる標本の指標を統計量という。
今、母集団から $n$ 個の標本 $X_{1},X_{2},\cdots,X_{n}$ を無作為抽出したとする。
母平均 $\mu$ の推定に使われる統計量は標本平均 $\bar{X}$ である。 \[ \bar{X}=\frac{X_{1}+X_{2}+\cdots+X_{n}}{n}=\frac{1}{n}\sum_{i=1}^{n}X_{i} \]
母分散 $\sigma^{2}$ の推定に使われる統計量は不偏分散 $s^{2}$ である。 \[ s^{2}=\frac{(X_{1}-\bar{X})^{2}+(X_{2}-\bar{X})^{2}+\cdots+(X_{n}-\bar{X})^{2}}{n-1}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2} \]
母平均の推定
ここでは最も簡単な母平均 $\mu$ の推定について説明する。
母数の推定方法には点推定と区間推定の二つがある。
点推定
単純に標本平均 $\bar{X}$ の値を母平均 $\mu$ の推定値とすることを点推定という。 点推定は大数の法則を根拠としている。
標本平均 $\bar{X}$ は $n$ が大きくなるにつれ、母平均 $\mu$ に近づく。
経験的に $n$ を増やすほど $\bar{X}$ は $\mu$ に近づくことが予想できるだろう。
サイコロの例
例えば、サイコロ 1 個を 4 回転がして出た目を $X_{1},X_{2},X_{3}, X_{4}$ とする。 これは要素が $1,2,3,4,5,6$ の母集団から 4 個の標本を無作為標本抽出することと同じである。
A さんと B さんがそれぞれサイコロ 1 個を 4 回転がした結果、以下の通りだったとする。
実験者 | 1回目 $X_{1}$ | 2回目 $X_{2}$ | 3回目 $X_{3}$ | 4回目 $X_{4}$ | 標本平均 $\bar{X}$ |
---|---|---|---|---|---|
Aさん | 5 | 1 | 3 | 1 | 2.5 |
Bさん | 6 | 6 | 3 | 5 | 4.0 |
点推定ならば、A さんが得た推定値は $2.5$、B さんが得た推定値は $4.0$ ということになる。 同じ条件で同じ回数だけ標本抽出を行ったとしても、Aさんと B さんで得られる標本は異なったので、それによって推定値も異なっている。
サイコロ1個を転がして出る目の平均は理論的には $\mu=3.5$ である($X$ の期待値)。 しかし、上の実験では 4 回しか転がしていないので A さんも B さんも標本平均は 3.5 からズレた値になっている。 大数の法則によれば、転がす回数を増やせば増やすほど $\mu=3.5$ に近い標本平均が得やすくなるはずである。
点推定は標本から $\bar{X}$ を求めるだけなのでお手軽だが、$\bar{X}$ の値がどのくらい真の $\mu$ に近いのかは分からない。
区間推定
点推定のように $\mu$ を $\bar{X}$ の値一つで推定するのではなく、ある確率 $1-\alpha$ で $\mu$ が含まれる区間を推定するのが区間推定である。 具体的には \[ P(L\le \mu\le U)=1-\alpha \] を満たす区間 $[L,U]$ を求めることである。 $[L, U]$ を $1-\alpha$ の信頼区間という。
また、$1-\alpha$ は信頼係数といい、こちらが恣意的に設定する確率である。 信頼係数には 0.9(90%), 0.95(95%), 0.99(99%)が良く使われる。
信頼区間は標本から確率的に推定するので、標本の統計量の確率分布(標本分布)が必要になる。 標本分布を知るためには、その元となる母集団分布を知らなくてはならないが、そもそも標本から母集団を推定しようとしているのでそれは無理な話である。 しかし、母集団分布を知らなくても $n$ が大きければ中心極限定理によって $\bar{X}$ の標本分布は正規分布になることが分かる。
母平均 $\mu$、母分散 $\sigma^{2}$ の母集団があるとする。この母集団がどのような分布1)でも、$\bar{X}$ の標本分布は(近似的に)$N(\mu,\sigma^{2}/n)$ になる。母集団が正規分布の場合は $n$ に関わらず厳密にいえるが、それ以外の分布の場合は $n$ が大きいほど近似は良くなる。
母分散が既知の場合
母分散 $\sigma^{2}$ があらかじめ分かっているとする。
中心極限定理から、$n$ が大きければ $\bar{X}$ は(近似的に) $N(\mu,\sigma^{2}/n)$ に従う。 $N(\mu,\sigma^{2}/n)$ の中心に $1-\alpha$ の確率をとり、その両端の確率を $\alpha/2$ ずつに分けると確率の式は以下のようになる(標準化を利用)。 \[ P\left(\mu-Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\le \bar{X}\le \mu+Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right)=1-\alpha \] ここで $Z_{\alpha/2}$ は、$N(0,1)$ における上側確率 $\alpha/2$ のパーセント点である。
かっこの中の不等式を変形すると \[ P\left(\bar{X}-Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\le \mu\le \bar{X}+Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right)=1-\alpha \] となる。 したがって信頼区間は \[ [L,U]= \left[\bar{X}-Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \bar{X}+Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right] \] で求められる。
母分散が未知の場合
母分散 $\sigma^{2}$ が分かっていない場合は、代わりに標本から求められる不偏分散 $s^{2}$ を使う。
$n$ が大きい場合は、大数の法則により $\sigma^{2}$ は不偏分散 $s^{2}$ とほぼ等しいとみなせるため、 $\sigma^{2}\simeq s^{2}$ と近似して母集団が既知の場合の信頼区間を使うことができる。 \[ [L,U]= \left[ \bar{X}-Z_{\alpha/2}\frac{s}{\sqrt{n}}, \bar{X}+Z_{\alpha/2}\frac{s}{\sqrt{n}} \right] \]
サイコロの例
サイコロ 1 個を 4 回転がして得られた標本から母平均 $\mu$ の信頼係数 90%($1-\alpha=0.9$)の信頼区間の推定を行う。 簡単のために母分散 $\sigma^{2}=\frac{35}{12}$(母標準偏差 $\sigma=\sqrt{\frac{35}{12}}$)で既知とする。
A さんと B さんがそれぞれサイコロ 1 個を 4 回転がした結果、以下の通りだったとする。
実験者 | 1回目 $X_{1}$ | 2回目 $X_{2}$ | 3回目 $X_{3}$ | 4回目 $X_{4}$ | 標本平均 $\bar{X}$ |
---|---|---|---|---|---|
Aさん | 5 | 1 | 3 | 1 | 2.5 |
Bさん | 6 | 6 | 3 | 5 | 4.0 |
これより、信頼係数 90% の信頼区間は \begin{eqnarray*} A さん && [L,U]=[2.5-1.4, 2.5+1.4]=[1.1, 3.9]\\ B さん && [L,U]=[4.0-1.4, 4.0+1.4]=[2.6, 5.4] \end{eqnarray*} となる。 ここで \[ Z_{0.05}\frac{\sigma}{\sqrt{n}}\simeq 1.64\times\sqrt{\frac{35}{12}}\times\frac{1}{\sqrt{4}}\simeq 1.4 \] を使った。
LibreOffice Calc では「=NORM.INV(1-0.05,0,1)*SQRT(35/12)/SQRT(4)
」 もしくは 「=NORM.INV(1-0.05,0,1)*SQRT(35/(12*4))
」で計算できる。
信頼係数の意味
信頼区間は、信頼係数 $1-\alpha$ と $n$ と抽出した標本によって求まる。 以下の図は A さん、B さん、C さん、・・・がそれぞれ同じ条件で標本を無作為抽出して得られた信頼区間を縦棒で表したものである。
無作為抽出なので、人によって標本が異なり、それによって信頼区間も異なる。 この図だと、結果的に D さん以外は $\mu$ を含む信頼区間が推定できていることになる。
信頼係数は、どのくらいの人が $\mu$ を含む信頼区間を標本から得られるかを決める確率といえる。 例えば、100人がそれぞれ同じ条件で標本を無作為抽出して 95% の信頼区間を求めたとすると、95 人は $\mu$ を含む信頼区間が推定できても 5 人は外れる可能性があるということである。
信頼係数が大きいほど信頼区間は広くなり(つまり、上図の縦棒が長くなり)、 $\mu$ から外れる可能性は低くなる。 しかし、信頼区間が広がると $\mu$ の推定の誤差が大きくなるので、信頼係数をむやみに大きくすれば良いというものでもない。
信頼区間を狭くして推定の誤差を小さくするには、標本を多く抽出するのが良い。 例えば、標本サイズ $n$ を 9 倍にすると、信頼区間の幅は $1/\sqrt{9}=1/3$ 倍になり、推定の誤差が小さくなる。
演習
- 使用するファイル:dice_estimation.ods
このファイルでサイコロ1個を4回転がしたときの区間推定のシミュレーションができる。
ダウンロードした dice_estimation.ods を LibreOffice Calc で開くと、すぐに区間推定ができるようになっている。
[F9] ボタンを押すと再計算が行われるため、そのたびにコンピュータの中で擬似的にサイコロを転がしてその結果が表示される。
信頼係数 $1-\alpha$ の値を大きくすると信頼区間はどのように変わるかを見て欲しい。
課題
dice_estimation.ods を修正して、サイコロ1個を10回転がしたときの信頼区間を求められるようにしなさい。
作成したファイルは ODFスプレッドシート(拡張子 .ods)で提出すること。