【データリテラシー】第5回 代表値と散らばりの尺度
ここではデータの分布の特徴を表すための代表値と散らばりの尺度について説明する。
変数について
データは様々な値に変化するため、変数として扱うことにする。
変数は $x, y, z$ などの記号で表し、それぞれの変数の値は $x_{1}, x_{2}, x_{3}, \cdots $ のように番号を下付きの添え字で区別することがある。 例えば、$n$ 人の身長のデータがあった場合、身長を変数 $x$ とみなし、$n$ 人のデータを順番に $x_{1}, x_{2}, x_{3}, \cdots, x_{n}$ として表すことができる。
変数は大きく分けて量的変数と質的変数に分けられる。 さらに尺度によって細かく分けられる。
変数の種類 | 変数の尺度 |
---|---|
量的変数 | 比率尺度 |
間隔尺度 | |
質的変数 | 順序尺度 |
名義尺度 |
量的変数
長さや温度など定量的な値(数値)で観測されるデータを扱う変数を量的変数という。 量的変数は離散型変数か連続型変数かのどちらかである。
量的変数は数値を扱うが、数値だけでは意味がなく、単位も忘れてはならない。 ただし、割合のように単位を持たない変数もある。
離散型変数
変数の値としてとびとびの値しかとらない変数を離散型変数という。 また、離散型変数で表されるデータを離散型データという。
例えば、サイコロの目は 1, 2, 3, 4, 5, 6 のとびとびの値しかとらないので離散型変数である。
連続型変数
変数の値として連続的な値をとりうる変数を連続型変数という。 また、連続型変数で表されるデータを連続型データという。
例えば、デジタル体重計で体重を測定する。 普通のデジタル体重計は 0.1 kg 単位まで表示してくれるので、60.1kg や 60.2kg など 0.1kg 単位で変化するとびとびの値のように見える。 しかし、本当の体重はもっと細かい単位まで値があり、デジタル体重計は 0.1 kg 単位より細かい値を(四捨五入などで)丸めて表示しているにすぎない。 体重のようにいくらでも細かい値まであるような場合は連続型変数である。
質的変数
性別や血液型など定量的な値では観測できないデータを扱う変数を質的変数という。
質的変数は便宜上、数値を割り当てて量的変数のように扱うことも可能である。
例えば血液型の場合、A型=0, B型=1, AB型=2, O型=3 と数値を割り当てることができる。 しかし、AB型=1, A型=2, B型=3, O型=4 のように別の割り当て方もできる。 それぞれの血液型を区別できれば自由に割り当てて構わないが、途中で割り当て方を変更すると間違いが起こりやすいので注意する。
変数の尺度
変数を測定する基準を尺度という。 尺度には比率尺度、間隔尺度、順序尺度、名義尺度の4つがある。 一般的に量的変数は比率尺度か間隔尺度、質的変数は順序尺度か名義尺度で測られる。
比率尺度
比率尺度は原点が決まっており、間隔と比率に意味がある。 比率尺度の変数同士では四則演算(足し算、引き算、かけ算、わり算)ができる。 比例尺度、比尺度ともいう。
比率尺度の例
- 長さ:175cm, 2236m
- 重さ:10g, 1.5kg
- 価格:750円, $150
間隔尺度
間隔尺度は数値の間隔に意味がある。 間隔尺度の変数同士では足し算と引き算ができる。
間隔尺度の例
- 暦年:西暦2021年, 令和5年
- 摂氏温度:36.5℃
比率尺度と間隔尺度の違いは、比率に意味があるかどうかである。 例えば間隔尺度である暦年では「西暦2000年は西暦1000年の2倍である」といういい方はできない。
順序尺度
順序尺度は順序に意味がある。 順序尺度の変数同士の演算には意味がない。
順序尺度の例
- 順位:1位, 2位, 3位
- 科目の評価:優, 良, 可, 不可
例えば、ある試験の結果、Aさんが 100点、Bさんが 92点、Cさんが 8点だった。 点数の高い順に順位をつけると1位 Aさん、2位 Bさん、3位 Cさんである。 順位は数の上では引き算ができるが、1位と2位の点差と2位と3位の点差が同じとはいえないので、順位の引き算に意味はない。
名義尺度
名義尺度は単に分類するためだけに使われる。 便宜上、数量化はできるが、順序や演算には意味がない。
名義尺度の例
- 血液型:A型, B型, AB型, O型
- コース:経営, 政策, 地域経営, 国際教養, 観光まちづくり, メディア情報
代表値
分布の中心を表す値を代表値という。 よく使われるのは平均、中央値、最頻値である。
平均
平均にもいくつか種類がある。 中でも最もよく使われるのは算術平均であり、普通「平均」といえばこの算術平均を指す。
生データの平均
生データ $x_{i}$ $(i=1,2,\cdots,n)$ の算術平均は $\bar{x}$(エックスバー)のように変数の上に横棒(バー)を付けて表す。 \[ \bar{x}=\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}=\frac{1}{n}\sum_{i=1}^{n}x_{i} \]
度数分布の平均
度数分布の階級値 $v_{i}$、度数 $f_{i}$ $(i=1,2,\cdots,k)$ とすると、算術平均は以下の通りである。 \[ \bar{x}=\frac{v_{1}f_{1}+v_{2}f_{2}+\cdots+v_{k}f_{k}}{n}=\frac{1}{n}\sum_{i=1}^{k}v_{i}f_{i} \] ここで \[ n=f_{1}+f_{2}+\cdots+f_{k}=\sum_{i=1}^{k}f_{i} \] である。
度数分布では、$v_{1}$ の値が $f_{1}$ 個、$v_{2}$ の値が $f_{2}$ 個、… という考え方をしている。
生データの平均と、その生データの度数分布の平均は一致するとは限らない。
中央値
データを小さい順(もしくは大きい順)に並べたときのちょうど中央の値を中央値(メディアン)という。
生データの中央値
データの個数 $n$ が奇数か偶数かで定義が異なる。
生データ $x_{i}$ $(i=1,2,\cdots,n)$ が小さい順(もしくは大きい順)に並んでいるとすると、中央値 $x_{M}$ の定義は $n$ が奇数か偶数かによって異なる。
\[ x_{M}=\left\{ \begin{array}{ll} x_{(n+1)/2} & (n が奇数)\\ \\ \displaystyle\frac{x_{n/2}+x_{(n/2)+1}}{2} & (n が偶数) \end{array} \right. \]
例えば、$x_{1},x_{2},x_{3},x_{4},x_{5}$($n=5$)の場合の中央値は以下の通りである。 \[ x_{M}=x_{(5+1)/2}=x_{3} \]
$x_{1},x_{2},x_{3},x_{4},x_{5},x_{6}$($n=6$)の場合の中央値は以下の通りである。 \[ x_{M}=\frac{x_{6/2}+x_{(6/2)+1}}{2}=\frac{x_{3}+x_{4}}{2} \]
度数分布の中央値
度数分布の中央値は少し手間がかかる。
$i$ 番目の階級において下限値 $l_{i}$、上限値 $u_{i}$、累積度数 $c_{i}$ とすると、$c_{j-1}<\frac{n}{2}\le c_{j}$ を満たす $j$ 番目の階級に中央値が含まれるので、まずはその階級を見つける。
中央値を含む階級が見つかったら、一つの階級では観測値が一様に分布すると考え、線形補間で中央値を求める。 \[ x_{M}=l_{j}+q(u_{j}-l_{j}) \] ここで \[ q=\frac{\frac{n}{2}-c_{j-1}}{c_{j}-c_{j-1}} \] である。
最頻値
観測値の中で最も多く頻出する観測値を最頻値(モード)という。
度数分布の場合は、度数が最大となる階級値が最頻値で、ヒストグラムにすると最も高い峰の値のことである。 ただし、最も高い峰が二つ以上あるような場合は、最頻値を一義的に定義することができない。 元が同じデータでも階級の取り方で最頻値は異なることがある。
代表値の違い
分布によって平均、中央値、最頻値はそれぞれ同じ値になるとは限らない。 ただし、左右対称の分布だと「平均=中央値=最頻値」となる。
例えば、以下は データセット1 の年齢の分布のグラフである。 代表値を計算すると、平均が 19.1歳、中央値が 18歳、最頻値が 17歳であった。 このように値が小さいほうに度数が偏った分布では、「最頻値 < 中央値 < 平均」となる。 このような分布では、平均よりも最頻値の方を分布の中心とみなした方が分かりやすいだろう。
パーセンタイルと四分位数
パーセンタイル
中央値を拡張したものにパーセンタイル(分位数)がある。 データを小さい順に並べたときの小さい方から $100p$% のところの値を $100p$ パーセンタイルという($0\le p\le 1$)。 データを $p:1-p$ に分ける点ともいえる。
中央値は 50 パーセンタイル($p=0.5$)である。
四分位数
パーセンタイルのうち、特に 25%, 50%, 75% パーセンタイルを四分位数という。 これらはデータをちょうど四分割する点にあたる。
- 第1四分位数 $Q_{1}$ = 25パーセンタイル
- 第2四分位数 $Q_{2}$ = 50パーセンタイル(= 中央値)
- 第3四分位数 $Q_{3}$ = 75パーセンタイル
これに最小値 $Q_{0}$ と最大値 $Q_{4}$ を加えて $Q_{0},Q_{1},Q_{2},Q_{3},Q_{4}$ の5つの指標を五数要約という。
例えば、データセット1 の身長の分布のヒストグラムで、四分位数との対応を色分けで表すと以下のようになる。 身長 176.1cm の人は上位 25% のグループに入ることが一目で分かる。
散らばりの尺度
散らばりの尺度分布の広がりを表す指標である。
分布の代表値が同じであっても分布の形が同じとは限らない。 以下の三つの分布は全て左右対称で $平均=中央値=最頻値=0$ であるが、分布の形は様々である。
分布の特徴を表すには代表値だけでは不十分で、散らばりの尺度も必要となる。
散らばりの尺度としては分散、標準偏差がよく使われる。
分散
分布の散らばりは、平均からのずれがどれくらいか表せれば良さそうである。 個々のデータの平均からのずれ $(x_{i}-\bar{x})$ を偏差という。 個々の偏差を全て取り入れて一つの値で分布の散らばりを表すために偏差の総和や平均を求めるとどうなるだろうか。 実際に偏差の総和を計算すると必ず零になってしまう。 \[ \sum_{i=1}^{n}(x_{i}-\bar{x})=n\bar{x}-n\bar{x}=0 \] これは、個々の偏差は正の値や負の値があって打ち消し合うためである。
そこで、偏差の負号を無くすために、偏差を二乗して平均をとったものを分散 $S^{2}$ といい、これで分布の散らばりを表すことができる。
分散はデータを二乗するため、単位もデータの単位の二乗になってしまうので注意する。 例えば、データが長さの単位 $\mathrm{[m]}$(メートル)を持つ場合、分散の単位は面積の単位 $\mathrm{[m^{2}]}$(平方メートル)となってしまうため、分散をデータやその平均とは直接比べられない。
生データの分散
生データ $x_{i}$ $(i=1,2,\cdots,n)$ の分散 $S^{2}$ は以下の通りである1)。 \[ S^{2}=\frac{(x_{1}-\bar{x})^{2}+(x_{2}-\bar{x})^{2}+\cdots+(x_{n}-\bar{x})^{2}}{n} =\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2} \]
度数分布の分散
度数分布の階級値 $v_{i}$、度数 $f_{i}$ $(i=1,2,\cdots,k)$ とすると、分散は以下の通りである。 \[ S^{2}=\frac{(v_{1}-\bar{x})^{2}f_{1}+(v_{2}-\bar{x})^{2}f_{2}+\cdots+(v_{k}-\bar{x})^{2}f_{k}}{n}=\frac{1}{n}\sum_{i=1}^{k}(v_{i}-\bar{x})^{2}f_{i} \]
不偏分散
分散の分母の $n$ を $n-1$ に変えたものを不偏分散 $s^{2}$ という2)。 不偏分散は標本に対して使う分散である。
\[ s^{2}=\frac{(x_{1}-\bar{x})^{2}+(x_{2}-\bar{x})^{2}+\cdots+(x_{n}-\bar{x})^{2}}{n-1} =\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2} \]
標準偏差
分散 $S^{2}$ の平方根(ルート)をとったものを標準偏差 $S$ という。 \[ S=\sqrt{S^{2}} \]
分散の単位はデータの単位の二乗になってしまうが、標準偏差の単位はデータの単位と同じになるため、データや平均と直接比べられる。
不偏標準偏差
不偏分散の平方根をとったものを不偏標準偏差 $s$ という。 不偏標準偏差は標本に対して使う標準偏差である。 \[ s=\sqrt{s^{2}} \]
散らばりの尺度の違い
先ほどの $平均=中央値=最頻値=0$ の分布の分散 $S^{2}$ と標準偏差 $S$ は以下のようになる。
偏差値
データ $x_{i}$ を次の式で変換したものを偏差値(偏差値得点)という。 \[ T_{i}=\frac{10(x_{i}-\bar{x})}{S}+50 \] ここで $\bar{x}$ は $x_{i}$ の平均、$S$ は $x_{i}$ の標準偏差である。
この変換によって $T_{i}$ は平均が 50 、標準偏差が 10 のデータとなる。
偏差値は最低が 0 で最高が 100 と勘違いされがちだが、そのような範囲の制限はなく、0 以下の値にも 100 以上の値にもなりうる。
関数
代表値と散らばりの尺度の関数
関数 | 説明 |
---|---|
MIN(引数) | 引数の最小値を求める。 |
MAX(引数) | 引数の最大値を求める。 |
SUM(引数) | 引数の合計を求める。 |
AVERAGE(引数) | 引数の平均を求める。 |
MEDIAN(引数) | 引数の中央値を求める。 |
MODE(引数) MODE.SNGL(引数) | 引数の最頻値を(一つ)求める。 |
VAR.P(引数) | 引数の分散を求める。 |
VAR.S(引数) | 引数の不偏分散を求める。 |
STDEV.P(引数) | 引数の標準偏差を求める。 |
STDEV.S(引数) | 引数の不偏標準偏差を求める。 |
以上の関数の引数には数値・セル・セル範囲のいずれか記述する。
「,
」で区切って複数記述することもできる。
MODE 関数と MODE.SNGL 関数は同じである。MODE 関数は古いバージョンの関数で、互換性のために残してある。 最頻値を複数個求める MODE.MULT 関数もある。
パーセンタイルと四分位数の関数
関数 | 説明 |
---|---|
PERCENTILE(セル範囲, p) PERCENTILE.INC(セル範囲, p) | セル範囲のデータの $100p$ パーセンタイルを求める(定義1). $p$ は $0\le p\le 1$ の実数である。 |
PERCENTILE.EXC(セル範囲, p) | セル範囲のデータの 100p パーセンタイルを求める(定義2). $p$ は $\frac{1}{n+1}\le p\le \frac{n}{n+1}$ の実数である。 |
QUARTILE(セル範囲, タイプ) QUARTILE.INC(セル範囲, タイプ) | セル範囲のデータの四分位数を求める(定義1)。 タイプは 0,1,2,3,4 のいずれかで、$Q_{0},Q_{1},Q_{2},Q_{3},Q_{4}$ に対応する。 |
QUARTILE.EXC(セル範囲, タイプ) | セル範囲のデータの四分位数を求める(定義2)。 タイプは 1,2,3 のいずれかで、$Q_{1},Q_{2},Q_{3}$ に対応する。 |
PERCENTILE 関数と PERCENTILE.INC 関数は同じである。QUARTILE 関数と QUARTILE.INC 関数も同じである。PERCENTILE 関数と QUARTILE 関数は古いバージョンの関数で、互換性のために残してある。
演習:代表値と散らばりの尺度の計算(生データ)
平均
- 空のセルに「
=AVERAGE(D2:D501)
」と入力する。
中央値
- 空のセルに「
=MEDIAN(D2:D501)
」と入力する。
最頻値
- 空のセルに「
=MODE(D2:D501)
」と入力する。 - この生データで最頻値を見てもあまり意味はない。
分散
- 分散は、空のセルに「
=VAR.P(D2:D501)
」と入力する。 - 不偏分散は、空のセルに「
=VAR.S(D2:D501)
」と入力する。
標準偏差
- 標準偏差は、空のセルに「
=STDEV.P(D2:D501)
」と入力する。 - 不偏標準偏差は、空のセルに「
=STDEV.S(D2:D501)
」と入力する。
標準偏差は、分散を求めた後に「=SQRT(分散のセル)
」と入力して求めても良い。
SQRT 関数は引数の平方根(ルート)を計算する関数である。
四分位数
- $Q_{1}$ は、空のセルに「
=QUARTILE.INC(D2:D501,1)
」と入力する。 - $Q_{2}$ は、空のセルに「
=QUARTILE.INC(D2:D501,2)
」と入力する。 - $Q_{2}$ は、空のセルに「
=QUARTILE.INC(D2:D501,3)
」と入力する。
演習:代表値と散らばりの尺度の計算(度数分布)
平均
- 空のセルに「
=SUMPRODUCT(J3:J12,K3:K12)/500
」と入力する。
中央値
- $\frac{n}{2}=250$ なので、5番目の階級に中央値が含まれる。
- 空のセルに「
=H7+(250-L6)/(L7-L6)*(I7-H7)
」と入力する。
最頻値
- 度数が最大となる階級値が最頻値である。
- 自分の目で見つけた方が早いが、空のセルに「
=INDEX(J3:J12,MATCH(MAX(K3:K12),K3:K12,0))
」と入力してもよい。
分散
- 空のセルに「
=SUMPRODUCT((J3:J12-平均)^2,K3:K12)/500
」と入力する。この SUMPRODUCT 関数の引数には上で求めた「平均」のセルもしくは値を入力する。
標準偏差
- 「
=SQRT(度数分布表の分散)
」と入力する。この SQRT 関数の引数には上で求めた「度数分布表の分散」のセルもしくは値を入力する。
課題
データセット1 の「体重」のデータから代表値、散らばりの尺度、四分位数を求めなさい。
作成したファイルは ODFスプレッドシート(拡張子 .ods)で提出すること。