====== 【データリテラシー】第5回 代表値と散らばりの尺度 ====== ここではデータの分布の特徴を表すための代表値と散らばりの尺度について説明する。 ===== 変数について ===== データには様々な値があるため、変数として扱うことにする。 変数は $x, y, z$ などの記号で表し、それぞれの変数の値は $x_{1}, x_{2}, x_{3}, \cdots $ のように番号を下付きの添え字で区別することがある。 例えば、$n$ 人の身長のデータがあった場合、身長を変数 $x$ とみなし、$n$ 人のデータを順番に $x_{1}, x_{2}, x_{3}, \cdots, x_{n}$ として表すことができる。 変数は大きく分けて量的変数と質的変数に分けられる。 さらに尺度によって細かく分けられる。 ^ 変数の種類 ^ 変数の尺度 ^ | 量的変数 | 比率尺度 | | ::: | 間隔尺度 | | 質的変数 | 順序尺度 | | ::: | 名義尺度 | ===== 量的変数 ===== 長さや温度など定量的な値(数値)で観測されるデータを扱う変数を__**量的変数**__という。 量的変数は離散型変数か連続型変数かのどちらかである。 量的変数は数値を扱うが、数値だけでは意味がなく、__**単位**__も忘れてはならない。 例えば、重さが「100」とだけ言っても 100g と 100kg では大きく違う。 ただし、割合や指数のように単位を持たない変数もある。 ---- ==== 離散型変数 ==== 変数の値としてとびとびの値しかとらない変数を__**離散型変数**__という。 また、離散型変数で表されるデータを__**離散型データ**__という。 === 例 === * サイコロの目:1,2,3,4,5,6 * 人数:1人, 2人, 3人 * 個数:1個, 2個, 3個 ---- ==== 連続型変数 ==== 変数の値として連続的な値をとりうる変数を__**連続型変数**__という。 また、連続型変数で表されるデータを__**連続型データ**__という。 === 例 === * 身長:168.3cm * 体重:60.1kg * 温度:36.2℃ * 時間:36分49.2秒 例えば、デジタル体重計で体重を測定する。 普通のデジタル体重計は 0.1 kg 単位まで表示してくれるので、60.1kg や 60.2kg など 0.1kg 単位で変化するとびとびの値のように見える。 しかし、本当の体重はもっと細かい単位まで値があり、デジタル体重計は 0.1 kg 単位より細かい値を(四捨五入などで)丸めて表示しているにすぎない。 体重のようにいくらでも細かい値まで測れるような場合は連続型変数である。 ===== 質的変数 ===== 定量的な値では観測できないデータを扱う変数を__**質的変数**__という。 === 例 === * 性別:男, 女 * 血液型:A型, B型, O型, AB型(ABO血液型の場合) * GP:S, A, B, C, D 質的変数は便宜上、数値を割り当てて扱うこと(__**数量化**__)ができるが、量的変数にはならないことに注意が必要である。 例えば、血液型で A型=0, B型=1, AB型=2, O型=3 と数字を割り当てることができるが、AB型=1, A型=2, B型=3, O型=4 のように別の割り当て方もできる。 それぞれの血液型を区別できれば自由に割り当てて構わないが、途中で割り当て方を変更すると間違いが起こりやすい。 ===== 変数の尺度 ===== 変数を測定する基準を__**尺度**__という。 尺度には__**比率尺度**__、__**間隔尺度**__、__**順序尺度**__、__**名義尺度**__の4つがある。 一般的に量的変数は比率尺度か間隔尺度、質的変数は順序尺度か名義尺度で測られる。 ---- ==== 比率尺度 ==== 比率尺度は原点が決まっており、間隔と比率に意味がある。 比率尺度の変数同士では四則演算(足し算、引き算、かけ算、わり算)ができる。 比例尺度、比尺度ともいう。 === 例 === * 長さ:175cm, 2236m * 重さ:10g, 1.5kg * 価格:750円, $150 ---- ==== 間隔尺度 ==== 間隔尺度は数値の間隔に意味がある。 間隔尺度の変数同士では足し算と引き算ができる。 === 例 === * 暦年:西暦2021年, 令和5年(和暦) * 温度:36.5℃ 比率尺度と間隔尺度の違いは、比率に意味があるかどうかである。 例えば間隔尺度である暦年では「西暦2000年は西暦1000年の2倍である」といういい方はできない。 ---- ==== 順序尺度 ==== 順序尺度は順序に意味がある。 順序尺度の変数同士の演算には意味がない。 === 例 === * 順位:1位, 2位, 3位 * 科目の評価:優, 良, 可, 不可 例えば、ある試験の結果、Aさんが 100点、Bさんが 92点、Cさんが 8点だった。 点数の高い順に順位をつけると1位 Aさん、2位 Bさん、3位 Cさんである。 順位自体は数の上では引き算ができるが、1位と2位の点差と2位と3位の点差が同じとはいえないので、順位の引き算に意味はない。 ---- ==== 名義尺度 ==== 名義尺度は単に分類するためだけに使われる。 便宜上、数量化はできるが、順序や演算には意味がない。 === 例 === * 血液型:A型, B型, AB型, O型 * コース:経営, 政策, 地域経営, 国際教養, 観光まちづくり, メディア情報 ===== 代表値 ===== 分布の中心を表す値を__**代表値**__という。 よく使われるのは平均、中央値、最頻値である。 ---- ==== 平均 ==== 平均は最も良く使われる代表値である。 平均にもいくつか種類があるが、中でも最もよく使われるのは__**算術平均**__であり、普通「平均」といえばこの算術平均を指す。 算術平均は $\bar{x}$(エックスバー)のように変数の上に横棒(バー)を付けて表す。 === 生データの平均 === 生データ $x_{i}$ $(i=1,2,\cdots,n)$ の平均 $\bar{x}$ は以下で定義される。 \[ \bar{x}=\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}=\frac{1}{n}\sum_{i=1}^{n}x_{i} \] === 度数分布の平均 === 度数分布の階級値 $v_{i}$、度数 $f_{i}$ $(i=1,2,\cdots,k)$ とすると、平均は以下で定義される。 \[ \bar{x}=\frac{v_{1}f_{1}+v_{2}f_{2}+\cdots+v_{k}f_{k}}{n}=\frac{1}{n}\sum_{i=1}^{k}v_{i}f_{i} \] ここで \[ n=f_{1}+f_{2}+\cdots+f_{k}=\sum_{i=1}^{k}f_{i} \] である。 度数分布では、$v_{1}$ の値が $f_{1}$ 個、$v_{2}$ の値が $f_{2}$ 個、… という考え方をしている。 相対度数 $f_{i}/n$ を使うと次のような表し方もできる。 \[ \bar{x}=\sum_{i=1}^{k}v_{i}\left(\frac{f_{i}}{n}\right) \] 生データの平均と、その生データの度数分布の平均は一致するとは限らない。 ---- ==== 中央値 ==== データを**小さい順(もしくは大きい順)に並べたとき**のちょうど中央の値を__**中央値(メディアン)**__という。 === 生データの中央値 === データの個数 $n$ が奇数か偶数かで定義が異なる。 生データ $x_{i}$ $(i=1,2,\cdots,n)$ が小さい順(もしくは大きい順)に並んでいるとすると、中央値 $x_{M}$ の定義は $n$ が奇数か偶数かによって異なる。 \[ x_{M}=\left\{ \begin{array}{ll} x_{(n+1)/2} & (n が奇数)\\ \\ \displaystyle\frac{x_{n/2}+x_{(n/2)+1}}{2} & (n が偶数) \end{array} \right. \] 例えば、$x_{1},x_{2},x_{3},x_{4},x_{5}$($n=5$)の場合の中央値は以下の通りである。 \[ x_{M}=x_{(5+1)/2}=x_{3} \] | $x_{M}$\\ ↓ ||||| | $x_{1}$ | $x_{2}$ | $x_{3}$ | $x_{4}$ | $x_{5}$ | $x_{1},x_{2},x_{3},x_{4},x_{5},x_{6}$($n=6$)の場合の中央値は以下の通りである。 \[ x_{M}=\frac{x_{6/2}+x_{(6/2)+1}}{2}=\frac{x_{3}+x_{4}}{2} \] | $x_{M}$\\ ↓ |||||| | $x_{1}$ | $x_{2}$ | $x_{3}$ | $x_{4}$ | $x_{5}$ | $x_{6}$ | === 度数分布の中央値 === 度数分布の中央値は少し手間がかかる。 $i$ 番目の階級において下限値 $l_{i}$、上限値 $u_{i}$、累積度数 $F_{i}$ とすると、$F_{j-1}<\frac{n}{2}\le F_{j}$ を満たす $j$ 番目の階級に中央値が含まれるので、まずはその階級を見つける。 中央値を含む階級が見つかったら、一つの階級では観測値が一様に分布すると考え、線形補間で中央値を求める。 \[ x_{M}=l_{j}+q(u_{j}-l_{j}) \] ここで \[ q=\frac{\frac{n}{2}-F_{j-1}}{F_{j}-F_{j-1}} \] である。 ---- ==== 最頻値 ==== 観測値の中で最も多く現れる観測値を__**最頻値(モード)**__という。 === 生データの最頻値 === 離散型データの場合は同じ観測値がいくつ現れるかを数えて最頻値を求める。 連続型データの場合は定義が難しいので、度数分布表を作ってその最頻値を求めることを行う。 === 度数分布の最頻値 === 度数が最大となる階級値が最頻値で、ヒストグラムにすると最も高い峰の値のことである。 元が同じデータでも階級の取り方で最も高い峰は変わりうるので、最頻値が異なることがある。 最も高い峰が二つ以上あるような場合は、最頻値を一義的に定義することができない。 {{ mode.png?nolink |最頻値}} ===== 代表値の違い ===== 平均、中央値、最頻値は分布の中心を表すが、分布によってそれぞれ同じ値になるとは限らない。 * 左右対称の分布では「平均=中央値=最頻値」となる。 * 右に歪んだ分布では「最頻値<中央値<平均」となる。 * 左に歪んだ分布では「平均<中央値<最頻値」となる。 例えば、以下は [[dataset#データセット1]] の年齢の分布のグラフである。 代表値を計算すると、平均が 19.1歳、中央値が 18歳、最頻値が 17歳であった。 このように右に歪んだ分布(値が小さいほうに度数が偏った分布)では、「最頻値<中央値<平均」となる。 このような分布では、平均よりも最頻値の方を分布の中心とみなした方が分かりやすいだろう。 {{ statistics_ages.png?nolink |年齢の分布}} データに極端に大きい値や小さい値の__**外れ値**__がある場合、平均は外れ値に影響されやすいが、中央値は外れ値に影響されにくいという特徴がある。 例えば、以下の国語の点数のデータを考える。 $x_{5}=98$ は他の値より極端に値が大きい外れ値である。 ^ ^ $x_{1}$ ^ $x_{2}$ ^ $x_{3}$ ^ $x_{4}$ ^ $x_{5}$ ^ ^ 点数 | 3 | 8 | 11 | 15 | 98 | * 平均 $\bar{x}=\frac{3+8+11+15+98}{5}=27$ * 中央値 $x_{M}=x_{3}=11$ データ5つのうち4つは20点未満なのに、平均は外れ値の98点に引っ張られて20点を超えている。 それに対し、中央値は外れ値の影響をあまり受けていない。 ===== パーセンタイルと四分位数 ===== ==== パーセンタイル ==== 中央値を拡張したものに__**パーセンタイル(分位数)**__がある。 データを**小さい順に並べたとき**の小さい方から $100p$% のところの値を $100p$ パーセンタイルという($0\le p\le 1$)。 データを $p:1-p$ に分ける点ともいえる。 中央値は 50 パーセンタイル($p=0.5$)に等しい。 パーセンタイルの定義にはいくつかある。 以下では小さい順に並んだデータ $x_{1},x_{2},\cdots,x_{n}$ があり、この $100p$ パーセンタイルを $x(p)$ とする。 \\ \\ **定義1** $k=(n-1)p+1$ とし、$k$ の整数部を $m$、小数部を $q$ とする。 ここで $0\le p\le 1$ である。 * $k$ が整数の場合 \[ x(p)=x_{k} \] * $k$ が整数でない場合 * $x_{k}$ が存在しないので、$x_{m}$ と $x_{m+1}$ の値で線形補間する。 \[ x(p)=x_{m}+q(x_{m+1}-x_{m})=(1-q)x_{m}+q x_{m+1} \] {{ percentile1.png?nolink |パーセンタイルの定義1}} \\ \\ **定義2** $k=(n+1)p$ とし、$k$ の整数部を $m$、小数部を $q$ とする。 ここで $0