パーセンタイルの定義にはいくつかある。
以下では小さい順に並んだデータ $x_{1},x_{2},\cdots,x_{n}$ があり、この $100p$ パーセンタイルを $x(p)$ とする。
\\
\\
**定義1**
$k=(n-1)p+1$ とし、$k$ の整数部を $m$、小数部を $q$ とする。
ここで $0\le p\le 1$ である。
* $k$ が整数の場合
\[
x(p)=x_{k}
\]
* $k$ が整数でない場合
* $x_{k}$ が存在しないので、$x_{m}$ と $x_{m+1}$ の値で線形補間する。
\[
x(p)=x_{m}+q(x_{m+1}-x_{m})=(1-q)x_{m}+q x_{m+1}
\]
{{ percentile1.png?nolink |パーセンタイルの定義1}}
\\
\\
**定義2**
$k=(n+1)p$ とし、$k$ の整数部を $m$、小数部を $q$ とする。
ここで $0
\\
----
==== 四分位数 ====
パーセンタイルのうち、特に 25%, 50%, 75% パーセンタイルを__**四分位数**__という。
これらはデータをちょうど四分割する点にあたるため__**四分位点**__ともいう。
* 第1四分位数 $Q_{1}$ = 25パーセンタイル
* 第2四分位数 $Q_{2}$ = 50パーセンタイル(= 中央値)
* 第3四分位数 $Q_{3}$ = 75パーセンタイル
これに最小値 $Q_{0}$ と最大値 $Q_{4}$ を加えて $Q_{0},Q_{1},Q_{2},Q_{3},Q_{4}$ の5つの指標を__**五数要約**__という。
例えば、[[dataset#データセット1]] の身長のデータでは四分位数(定義1)は以下のようになる。
* $Q_{1}=157.775\mathrm{[cm]}$
* $Q_{2}=164.1\mathrm{[cm]}$
* $Q_{3}=170.3\mathrm{[cm]}$
ヒストグラムで四分位数との対応を色分けで表すと以下のようになる。
身長 176.1cm の人は上位 25% のグループに入ることが一目で分かる。
{{ quartile_histogram.png?nolink |身長の四分位数}}
四分位数の定義にはいくつかある。
以下、データ $x_{1},x_{2},\cdots,x_{n}$ は小さい順に並んでいるものとする。
\\
\\
**定義1**
$k=(n-1)p+1$ としたパーセンタイルで定義する。
\[
\begin{array}{ll}
Q_{1}=x(0.25), & k=0.25(n-1)+1=\frac{n+3}{4}\\
Q_{2}=x(0.5), & k=0.5(n-1)+1=\frac{n+1}{2}\\
Q_{3}=x(0.75), & k=0.75(n-1)+1=\frac{3n+1}{4}
\end{array}
\]
\\
\\
**定義2**
$k=(n+1)p$ としたパーセンタイルで定義する。
\[
\begin{array}{ll}
Q_{1}=x(0.25), & k=0.25(n+1)=\frac{n+1}{4}\\
Q_{2}=x(0.5), & k=0.5(n+1)=\frac{n+1}{2}\\
Q_{3}=x(0.75), & k=0.75(n+1)=\frac{3(n+1)}{4}
\end{array}
\]
\\
\\
**定義3**
- データの中央値を $Q_{2}$ とする。
- データを $Q_{2}$ で2分割する。
* $n$ が奇数の場合は、$Q_{2}=x_{(n+1)/2}$ を分割した両半分のデータから外す。
- 分割した小さい方の半分のデータの中央値を $Q_{1}$ とする。
- 分割した大きい方の半分のデータの中央値を $Q_{3}$ とする。
高校までで習うのは定義3であるが、Microsoft Excel や LibreOffice Calc では定義3で求める関数は備わっていない。
\\
\\
**四分位数の例**
$x_{1}
\\
===== 散らばりの尺度 =====
__**散らばりの尺度**__分布の広がりを表す指標である。
分布の代表値が同じであっても分布の形が同じとは限らない。
以下の三つの分布は全て左右対称で「平均=中央値=最頻値=0」であるが、分布の形は様々である。
{{ statistics_samecenter1.png?nolink |代表値が同じ様々な分布}}
分布の特徴を表すには代表値だけでは不十分で、散らばりの尺度も必要となる。
散らばりの尺度としては分散、標準偏差がよく使われる。
----
==== 偏差 ====
分布の散らばりは平均からのずれで表せる。
個々のデータの平均からのずれ
\[
x_{i}-\bar{x}
\]
を__**偏差**__という。
個々の偏差を全て取り入れて一つの値で分布の散らばりを表すことを考える。
単純に偏差の総和を計算すると
\[
\sum_{i=1}^{n}(x_{i}-\bar{x})=n\bar{x}-n\bar{x}=0
\]
このように必ず零になってしまうため、うまくいかない。
これは、個々の偏差は正の値や負の値があり、すべて足すと打ち消し合うためである。
----
==== 分散 ====
偏差の総和が零になるのは偏差に負の値があるせいなので、
偏差のマイナスを無くすために、**偏差を二乗**して平均をとったものを__**分散**__ $S^{2}$ という。
分散が分布の散らばりを表す尺度になる。
分散はデータを二乗するため、単位もデータの単位の二乗になってしまうことに注意しよう。
例えば、データが長さの単位 $\mathrm{[m]}$(メートル)を持つ場合、分散の単位は面積の単位 $\mathrm{[m^{2}]}$(平方メートル)となってしまうため、分散をデータやその平均とは直接比べられない。
=== 生データの分散 ===
生データ $x_{i}$ $(i=1,2,\cdots,n)$ の分散 $S^{2}$ は以下の通りである(($S$ は大文字である。))。
\[
S^{2}=\frac{(x_{1}-\bar{x})^{2}+(x_{2}-\bar{x})^{2}+\cdots+(x_{n}-\bar{x})^{2}}{n}
=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}
\]
=== 度数分布の分散 ===
度数分布の階級値 $v_{i}$、度数 $f_{i}$ $(i=1,2,\cdots,k)$ とすると、分散は以下の通りである。
\[
S^{2}=\frac{(v_{1}-\bar{x})^{2}f_{1}+(v_{2}-\bar{x})^{2}f_{2}+\cdots+(v_{k}-\bar{x})^{2}f_{k}}{n}=\frac{1}{n}\sum_{i=1}^{k}(v_{i}-\bar{x})^{2}f_{i}
\]
=== 不偏分散 ===
分散の分母の $n$ を $n-1$ に変えたものを__**不偏分散**__ $s^{2}$ という(($s$ は小文字である。))。
不偏分散は標本に対して使う分散で、主に推定や仮説検定で使用する。
\[
s^{2}=\frac{(x_{1}-\bar{x})^{2}+(x_{2}-\bar{x})^{2}+\cdots+(x_{n}-\bar{x})^{2}}{n-1}
=\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}
\]
----
==== 標準偏差 =====
分散 $S^{2}$ の平方根(ルート)をとったものを__**標準偏差**__ $S$ という。
\[
S=\sqrt{S^{2}}
\]
分散の単位はデータの単位の二乗になってしまうが、標準偏差の単位はデータの単位と同じになるため、データや平均と直接比べられる。
=== 不偏標準偏差 ===
不偏分散の平方根をとったものを__**不偏標準偏差**__ $s$ という。
不偏標準偏差は標本に対して使う標準偏差である。
\[
s=\sqrt{s^{2}}
\]
===== 散らばりの尺度の違い =====
先ほどの「平均=中央値=最頻値=0」の分布の分散 $S^{2}$ と標準偏差 $S$ は以下のようになる。
{{ statistics_samecenter2.png?nolink |様々な分布の分散と標準偏差}}
===== 偏差値 =====
データ $x_{i}$ を次の式で変換したものを__**偏差値(偏差値得点)**__という。
\[
T_{i}=\frac{10(x_{i}-\bar{x})}{S}+50
\]
ここで $\bar{x}$ は $x_{i}$ の平均、$S$ は $x_{i}$ の標準偏差である。
この変換によって $T_{i}$ は平均が 50 、標準偏差が 10 のデータとなる。
偏差値は最低が 0 で最高が 100 と勘違いされがちだが、そのような範囲の制限は全く無い。
偏差値は 0 以下の値にも 100 以上の値にもなりうる。
===== 関数 =====
==== 代表値と散らばりの尺度の関数 ====
^ 関数 ^ 説明 ^
| MIN(引数) | 引数の最小値を求める。 |
| MAX(引数) | 引数の最大値を求める。 |
| SUM(引数) | 引数の合計を求める。 |
| AVERAGE(引数) | 引数の平均を求める。 |
| MEDIAN(引数) | 引数の中央値を求める。 |
| MODE(引数)\\ MODE.SNGL(引数) | 引数の最頻値を(一つ)求める。 |
| VAR.P(引数) | 引数の分散を求める。 |
| VAR.S(引数) | 引数の不偏分散を求める。 |
| STDEV.P(引数) | 引数の標準偏差を求める。 |
| STDEV.S(引数) | 引数の不偏標準偏差を求める。 |
以上の関数の引数には数値、セル、セル範囲のいずれかを記述する。
「'',''」で区切って複数記述することもできる。
MODE 関数と MODE.SNGL 関数は同じである。MODE 関数は古いバージョンの関数で、互換性のために残してある。
最頻値を複数個求める MODE.MULT 関数もある。
----
==== パーセンタイルと四分位数の関数 ====
^ 関数 ^ 説明 ^
| PERCENTILE(セル範囲, p)\\ PERCENTILE.INC(セル範囲, p) | セル範囲のデータの $100p$ パーセンタイルを求める(定義1).\\ $p$ は $0\le p\le 1$ の実数である。 |
| PERCENTILE.EXC(セル範囲, p) | セル範囲のデータの 100p パーセンタイルを求める(定義2).\\ $p$ は $\frac{1}{n+1}\le p\le \frac{n}{n+1}$ の実数である。 |
| QUARTILE(セル範囲, タイプ)\\ QUARTILE.INC(セル範囲, タイプ) | セル範囲のデータの四分位数を求める(定義1)。\\ タイプは 0,1,2,3,4 のいずれかで、$Q_{0},Q_{1},Q_{2},Q_{3},Q_{4}$ に対応する。 |
| QUARTILE.EXC(セル範囲, タイプ) | セル範囲のデータの四分位数を求める(定義2)。\\ タイプは 1,2,3 のいずれかで、$Q_{1},Q_{2},Q_{3}$ に対応する。 |
PERCENTILE 関数と PERCENTILE.INC 関数は同じである。QUARTILE 関数と QUARTILE.INC 関数も同じである。PERCENTILE 関数と QUARTILE 関数は古いバージョンの関数で、互換性のために残してある。
===== 演習:代表値と散らばりの尺度の計算(生データ) =====
* 使用するデータセット:[[dataset#データセット1]]
列 D の「身長」のデータから代表値、散らばりの尺度、四分位数を求める。
----
==== 平均 ====
* 空のセルに「''=AVERAGE(D2:D501)''」と入力する。
----
==== 中央値 ====
* 空のセルに「''=MEDIAN(D2:D501)''」と入力する。
----
==== 最頻値 ====
* 空のセルに「''=MODE(D2:D501)''」と入力する。
* この生データで最頻値を見てもあまり意味はない。
----
==== 分散 ====
* 分散は、空のセルに「''=VAR.P(D2:D501)''」と入力する。
* 不偏分散は、空のセルに「''=VAR.S(D2:D501)''」と入力する。
----
==== 標準偏差 ====
* 標準偏差は、空のセルに「''=STDEV.P(D2:D501)''」と入力する。
* 不偏標準偏差は、空のセルに「''=STDEV.S(D2:D501)''」と入力する。
標準偏差は、分散を求めた後に「''=SQRT(分散のセル)''」と入力して求めても良い。
SQRT 関数は引数の平方根(ルート)を計算する関数である。
----
==== 四分位数 ====
* $Q_{1}$ は、空のセルに「''%%=QUARTILE.INC(D2:D501,1)%%''」と入力する。
* $Q_{2}$ は、空のセルに「''%%=QUARTILE.INC(D2:D501,2)%%''」と入力する。
* $Q_{2}$ は、空のセルに「''%%=QUARTILE.INC(D2:D501,3)%%''」と入力する。
===== 演習:代表値と散らばりの尺度の計算(度数分布) =====
[[lecture4#演習:度数分布表の作成]] で作成した身長の度数分布から代表値と散らばりの尺度を求める。
生データで求めた代表値と散らばりの尺度と比較してみよう。
----
==== 平均 ====
* 空のセルに「''=SUMPRODUCT(J3:J12,K3:K12)/500''」と入力する。
----
==== 中央値 ====
* $\frac{n}{2}=250$ なので、5番目の階級に中央値が含まれる。
* 空のセルに「''=H7+(250-L6)/(L7-L6)*(I7-H7)''」と入力する。
----
==== 最頻値 ====
* 度数が最大となる階級値が最頻値である。
* 自分の目で見つけた方が早いが、空のセルに「''%%=INDEX(J3:J12,MATCH(MAX(K3:K12),K3:K12,0))%%''」と入力してもよい。
----
==== 分散 ====
* 空のセルに「''=SUMPRODUCT((J3:J12-平均)^2,K3:K12)/500''」と入力する。この SUMPRODUCT 関数の引数には上で求めた「平均」のセルもしくは値を入力する。
----
==== 標準偏差 ====
* 「''=SQRT(度数分布表の分散)''」と入力する。この SQRT 関数の引数には上で求めた「度数分布表の分散」のセルもしくは値を入力する。
===== 課題 =====
[[dataset#データセット1]] の「体重」のデータから代表値、散らばりの尺度、四分位数を求めなさい。
作成したファイルは ODF 表計算ドキュメント(拡張子 .ods)で提出すること。