====== 【データリテラシー】第5回 代表値と散らばりの尺度 ====== ここではデータの分布の特徴を表すための代表値と散らばりの尺度について説明する。 ===== 変数について ===== データは様々な値に変化するため、変数として扱うことにする。 変数は $x, y, z$ などの記号で表し、それぞれの変数の値は $x_{1}, x_{2}, x_{3}, \cdots $ のように番号を下付きの添え字で区別することがある。 例えば、$n$ 人の身長のデータがあった場合、身長を変数 $x$ とみなし、$n$ 人のデータを順番に $x_{1}, x_{2}, x_{3}, \cdots, x_{n}$ として表すことができる。 変数は大きく分けて量的変数と質的変数に分けられる。 さらに尺度によって細かく分けられる。 ^ 変数の種類 ^ 変数の尺度 ^ | 量的変数 | 比率尺度 | | ::: | 間隔尺度 | | 質的変数 | 順序尺度 | | ::: | 名義尺度 | ===== 量的変数 ===== 長さや温度など定量的な値(数値)で観測されるデータを扱う変数を__**量的変数**__という。 量的変数は離散型変数か連続型変数かのどちらかである。 量的変数は数値を扱うが、数値だけでは意味がなく、__**単位**__も忘れてはならない。 ただし、割合のように単位を持たない変数もある。 ---- ==== 離散型変数 ==== 変数の値としてとびとびの値しかとらない変数を__**離散型変数**__という。 また、離散型変数で表されるデータを__**離散型データ**__という。 例えば、サイコロの目は 1, 2, 3, 4, 5, 6 のとびとびの値しかとらないので離散型変数である。 ---- ==== 連続型変数 ==== 変数の値として連続的な値をとりうる変数を__**連続型変数**__という。 また、連続型変数で表されるデータを__**連続型データ**__という。 例えば、デジタル体重計で体重を測定する。 普通のデジタル体重計は 0.1 kg 単位まで表示してくれるので、60.1kg や 60.2kg など 0.1kg 単位で変化するとびとびの値のように見える。 しかし、本当の体重はもっと細かい単位まで値があり、デジタル体重計は 0.1 kg 単位より細かい値を(四捨五入などで)丸めて表示しているにすぎない。 体重のようにいくらでも細かい値まであるような場合は連続型変数である。 ===== 質的変数 ===== 性別や血液型など定量的な値では観測できないデータを扱う変数を__**質的変数**__という。 質的変数は便宜上、数値を割り当てて量的変数のように扱うことも可能である。 例えば血液型の場合、A型=0, B型=1, AB型=2, O型=3 と数値を割り当てることができる。 しかし、AB型=1, A型=2, B型=3, O型=4 のように別の割り当て方もできる。 それぞれの血液型を区別できれば自由に割り当てて構わないが、途中で割り当て方を変更すると間違いが起こりやすいので注意する。 ===== 変数の尺度 ===== 変数を測定する基準を__**尺度**__という。 尺度には__**比率尺度**__、__**間隔尺度**__、__**順序尺度**__、__**名義尺度**__の4つがある。 一般的に量的変数は比率尺度か間隔尺度、質的変数は順序尺度か名義尺度で測られる。 ---- ==== 比率尺度 ==== 比率尺度は原点が決まっており、間隔と比率に意味がある。 比率尺度の変数同士では四則演算(足し算、引き算、かけ算、わり算)ができる。 比例尺度、比尺度ともいう。 === 比率尺度の例 === * 長さ:175cm, 2236m * 重さ:10g, 1.5kg * 価格:750円, $150 ---- ==== 間隔尺度 ==== 間隔尺度は数値の間隔に意味がある。 間隔尺度の変数同士では足し算と引き算ができる。 === 間隔尺度の例 === * 暦年:西暦2021年, 令和5年 * 摂氏温度:36.5℃ 比率尺度と間隔尺度の違いは、比率に意味があるかどうかである。 例えば間隔尺度である暦年では「西暦2000年は西暦1000年の2倍である」といういい方はできない。 ---- ==== 順序尺度 ==== 順序尺度は順序に意味がある。 順序尺度の変数同士の演算には意味がない。 === 順序尺度の例 === * 順位:1位, 2位, 3位 * 科目の評価:優, 良, 可, 不可 例えば、ある試験の結果、Aさんが 100点、Bさんが 92点、Cさんが 8点だった。 点数の高い順に順位をつけると1位 Aさん、2位 Bさん、3位 Cさんである。 順位は数の上では引き算ができるが、1位と2位の点差と2位と3位の点差が同じとはいえないので、順位の引き算に意味はない。 ---- ==== 名義尺度 ==== 名義尺度は単に分類するためだけに使われる。 便宜上、数量化はできるが、順序や演算には意味がない。 === 名義尺度の例 === * 血液型:A型, B型, AB型, O型 * コース:経営, 政策, 地域経営, 国際教養, 観光まちづくり, メディア情報 ===== 代表値 ===== 分布の中心を表す値を__**代表値**__という。 よく使われるのは平均、中央値、最頻値である。 ---- ==== 平均 ==== 平均にもいくつか種類がある。 中でも最もよく使われるのは__**算術平均**__であり、普通「平均」といえばこの算術平均を指す。 === 生データの平均 === 生データ $x_{i}$ $(i=1,2,\cdots,n)$ の算術平均は $\bar{x}$(エックスバー)のように変数の上に横棒(バー)を付けて表す。 \[ \bar{x}=\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}=\frac{1}{n}\sum_{i=1}^{n}x_{i} \] === 度数分布の平均 === 度数分布の階級値 $v_{i}$、度数 $f_{i}$ $(i=1,2,\cdots,k)$ とすると、算術平均は以下の通りである。 \[ \bar{x}=\frac{v_{1}f_{1}+v_{2}f_{2}+\cdots+v_{k}f_{k}}{n}=\frac{1}{n}\sum_{i=1}^{k}v_{i}f_{i} \] ここで \[ n=f_{1}+f_{2}+\cdots+f_{k}=\sum_{i=1}^{k}f_{i} \] である。 度数分布では、$v_{1}$ の値が $f_{1}$ 個、$v_{2}$ の値が $f_{2}$ 個、… という考え方をしている。 生データの平均と、その生データの度数分布の平均は一致するとは限らない。 ---- ==== 中央値 ==== データを**小さい順(もしくは大きい順)に並べたとき**のちょうど中央の値を__**中央値(メディアン)**__という。 === 生データの中央値 === データの個数 $n$ が奇数か偶数かで定義が異なる。 生データ $x_{i}$ $(i=1,2,\cdots,n)$ が小さい順(もしくは大きい順)に並んでいるとすると、中央値 $x_{M}$ の定義は $n$ が奇数か偶数かによって異なる。 \[ x_{M}=\left\{ \begin{array}{ll} x_{(n+1)/2} & (n が奇数)\\ \\ \displaystyle\frac{x_{n/2}+x_{(n/2)+1}}{2} & (n が偶数) \end{array} \right. \] 例えば、$x_{1},x_{2},x_{3},x_{4},x_{5}$($n=5$)の場合の中央値は以下の通りである。 \[ x_{M}=x_{(5+1)/2}=x_{3} \] $x_{1},x_{2},x_{3},x_{4},x_{5},x_{6}$($n=6$)の場合の中央値は以下の通りである。 \[ x_{M}=\frac{x_{6/2}+x_{(6/2)+1}}{2}=\frac{x_{3}+x_{4}}{2} \] === 度数分布の中央値 === 度数分布の中央値は少し手間がかかる。 $i$ 番目の階級において下限値 $l_{i}$、上限値 $u_{i}$、累積度数 $c_{i}$ とすると、$c_{j-1}<\frac{n}{2}\le c_{j}$ を満たす $j$ 番目の階級に中央値が含まれるので、まずはその階級を見つける。 中央値を含む階級が見つかったら、一つの階級では観測値が一様に分布すると考え、線形補間で中央値を求める。 \[ x_{M}=l_{j}+q(u_{j}-l_{j}) \] ここで \[ q=\frac{\frac{n}{2}-c_{j-1}}{c_{j}-c_{j-1}} \] である。 ---- ==== 最頻値 ==== 観測値の中で最も多く頻出する観測値を__**最頻値(モード)**__という。 度数分布の場合は、度数が最大となる階級値が最頻値で、ヒストグラムにすると最も高い峰の値のことである。 ただし、最も高い峰が二つ以上あるような場合は、最頻値を一義的に定義することができない。 元が同じデータでも階級の取り方で最頻値は異なることがある。 ===== 代表値の違い ===== 分布によって平均、中央値、最頻値はそれぞれ同じ値になるとは限らない。 ただし、左右対称の分布だと「平均=中央値=最頻値」となる。 例えば、以下は [[dataset#データセット1]] の年齢の分布のグラフである。 代表値を計算すると、平均が 19.1歳、中央値が 18歳、最頻値が 17歳であった。 このように値が小さいほうに度数が偏った分布では、「最頻値 < 中央値 < 平均」となる。 このような分布では、平均よりも最頻値の方を分布の中心とみなした方が分かりやすいだろう。 {{ data_literacy_past:2021:statistics_ages.png?nolink |年齢の分布}} ===== パーセンタイルと四分位数 ===== ==== パーセンタイル ==== 中央値を拡張したものに__**パーセンタイル(分位数)**__がある。 データを**小さい順に並べたとき**の小さい方から $100p$% のところの値を $100p$ パーセンタイルという($0\le p\le 1$)。 データを $p:1-p$ に分ける点ともいえる。 中央値は 50 パーセンタイル($p=0.5$)である。 パーセンタイルの定義にはいくつかある。 以下では小さい順に並んだデータ $x_{1},x_{2},\cdots,x_{n}$ があり、この $100p$ パーセンタイルを $x(p)$ とする。 \\ \\ **定義1** $k=(n-1)p+1$ とし、$k$ の整数部を $m$、小数部を $q$ とする。 ここで $0\le p\le 1$ である。 * $k$ が整数の場合 \[ x(p)=x_{k} \] * $k$ が整数でない場合 * $x_{k}$ が存在しないので、$x_{m}$ と $x_{m+1}$ の値で線形補間する。 \[ x(p)=x_{m}+q(x_{m+1}-x_{m})=(1-q)x_{m}+q x_{m+1} \] {{ data_literacy_past:2021:percentile1.png?nolink |パーセンタイルの定義1}} \\ \\ **定義2** $k=(n+1)p$ とし、$k$ の整数部を $m$、小数部を $q$ とする。 ここで $0