====== 【データリテラシー】第5回 代表値と散らばりの尺度 ====== ===== データの分布の特徴 ===== ここではデータの分布の特徴を__**代表値**__と__**散らばりの尺度**__から数量的に読み取る方法について説明する。 ===== 変数について ===== データには様々な値があるため、一般的に__**変数**__として扱うことにする。 変数は $x, y, z$ などの記号で表し、それぞれの変数の値は $x_{1}, x_{2}, x_{3}, \cdots $ のように番号を下付きの添え字で区別することがある。 例えば、$n$ 人の身長のデータがあった場合、身長を変数 $x$ とみなし、$n$ 人のデータを順番に $x_{1}, x_{2}, x_{3}, \cdots, x_{n}$ として表すことができる。 変数は大きく分けて__**量的変数**__と__**質的変数**__に分けられる。 さらに__**尺度**__によって細かく分けられる。 ^ 変数の種類 ^ 変数の尺度 ^ | 量的変数 | 比率尺度 | | ::: | 間隔尺度 | | 質的変数 | 順序尺度 | | ::: | 名義尺度 | ===== 量的変数 ===== 長さや温度など定量的な値(数値)で観測されるデータを扱う変数を__**量的変数**__という。 量的変数は離散型変数か連続型変数かのどちらかである。 量的変数は数値を扱うが、数値だけでは意味がなく、__**単位**__も忘れてはならない。 例えば、重さが「100」とだけ言っても 100g と 100kg では大きく違う。 ただし、割合や指数のように単位を持たない場合もある。 ---- ==== 離散型変数 ==== 変数の値としてとびとびの値しかとらない変数を__**離散型変数**__という。 また、離散型変数で表されるデータを__**離散型データ**__という。 === 例 === * サイコロの目:1,2,3,4,5,6 * 人数:1人, 2人, 3人 * 個数:1個, 2個, 3個 ---- ==== 連続型変数 ==== 変数の値として連続的な値をとりうる変数を__**連続型変数**__という。 また、連続型変数で表されるデータを__**連続型データ**__という。 === 例 === * 身長:168.3cm * 体重:60.1kg * 温度:36.2℃ * 時間:36分49.2秒 例えば、デジタル体重計で体重を測定する。 普通のデジタル体重計は 0.1 kg 単位まで表示してくれるので、60.1kg や 60.2kg など 0.1kg 単位で変化するとびとびの値のように見える。 しかし、本当の体重はもっと細かい単位まで値があり、デジタル体重計は 0.1 kg 単位より細かい値を(四捨五入などで)丸めて表示しているにすぎない。 体重のようにいくらでも細かい値まで測れるような場合は連続型変数である。 ===== 質的変数 ===== 定量的な値では観測できないデータを扱う変数を__**質的変数**__という。 === 例 === * 性別:男, 女 * 血液型:A型, B型, O型, AB型(ABO血液型の場合) * GP:S, A, B, C, D 質的変数は便宜上、数値を割り当てて扱うこと(__**数量化**__)ができるが、量的変数にはならないことに注意が必要である。 例えば、血液型で A型=0, B型=1, AB型=2, O型=3 と数字を割り当てることができるが、AB型=1, A型=2, B型=3, O型=4 のように別の割り当て方もできる。 それぞれの血液型を区別できれば自由に割り当てて構わないが、途中で割り当て方を変更すると間違いが起こりやすい。 ===== 変数の尺度 ===== 変数を測定する基準を__**尺度**__という。 尺度には__**比率尺度**__、__**間隔尺度**__、__**順序尺度**__、__**名義尺度**__の4つがある。 一般的に量的変数は比率尺度か間隔尺度、質的変数は順序尺度か名義尺度で測られる。 ---- ==== 比率尺度 ==== 比率尺度は原点が決まっており、間隔と比率に意味がある。 比率尺度の変数同士では四則演算(足し算、引き算、かけ算、わり算)ができる。 比例尺度、比尺度ともいう。 === 例 === * 長さ:175cm, 2236m * 重さ:10g, 1.5kg * 価格:750円, $150 ---- ==== 間隔尺度 ==== 間隔尺度は数値の間隔に意味がある。 間隔尺度の変数同士では足し算と引き算ができる。 === 例 === * 暦年:西暦2021年, 令和5年(和暦) * 温度:36.5℃ 比率尺度と間隔尺度の違いは、比率に意味があるかどうかである。 例えば間隔尺度である暦年では「西暦2000年は西暦1000年の2倍である」といういい方はできない。 ---- ==== 順序尺度 ==== 順序尺度は順序に意味がある。 順序尺度の変数同士の演算には意味がない。 === 例 === * 順位:1位, 2位, 3位 * 科目の評価:優, 良, 可, 不可 例えば、ある試験の結果、Aさんが 100点、Bさんが 92点、Cさんが 8点だった。 点数の高い順に順位をつけると1位 Aさん、2位 Bさん、3位 Cさんである。 順位自体は数の上では引き算ができるが、1位と2位の点差と2位と3位の点差が同じとはいえないので、順位の引き算に意味はない。 ---- ==== 名義尺度 ==== 名義尺度は単に分類するためだけに使われる。 便宜上、数量化はできるが、順序や演算には意味がない。 === 例 === * 血液型:A型, B型, AB型, O型 * コース:経営, 政策, 地域経営, 国際教養, 観光まちづくり, メディア情報 ===== 代表値 ===== 分布の中心を表す値を__**代表値**__という。 よく使われるのは平均、中央値、最頻値である。 ---- ==== 平均 ==== 平均は最も良く使われる代表値である。 平均にもいくつか種類があるが、中でも最もよく使われるのは__**算術平均**__であり、普通「平均」といえばこの算術平均を指す。 算術平均は $\bar{x}$(エックスバー)のように変数の上に横棒(バー)を付けて表す。 === 生データの平均 === 生データ $x_{i}$ $(i=1,2,\cdots,n)$ の平均 $\bar{x}$ は以下で定義される。 \[ \bar{x}=\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}=\frac{1}{n}\sum_{i=1}^{n}x_{i} \] === 度数分布の平均 === 度数分布の階級値 $v_{i}$、度数 $f_{i}$ $(i=1,2,\cdots,k)$ とすると、平均は以下で定義される。 \[ \bar{x}=\frac{v_{1}f_{1}+v_{2}f_{2}+\cdots+v_{k}f_{k}}{n}=\frac{1}{n}\sum_{i=1}^{k}v_{i}f_{i} \] ここで \[ n=f_{1}+f_{2}+\cdots+f_{k}=\sum_{i=1}^{k}f_{i} \] である。 度数分布では、$v_{1}$ の値が $f_{1}$ 個、$v_{2}$ の値が $f_{2}$ 個、… という考え方をしている。 相対度数 $f_{i}/n$ を使うと次のような表し方もできる。 \[ \bar{x}=\sum_{i=1}^{k}v_{i}\left(\frac{f_{i}}{n}\right) \] 生データの平均と、その生データの度数分布の平均は一致するとは限らない。 ---- ==== 中央値 ==== データを**小さい順(もしくは大きい順)に並べたとき**のちょうど中央の値を__**中央値(メディアン)**__という。 === 生データの中央値 === データの個数 $n$ が奇数か偶数かで定義が異なる。 生データ $x_{i}$ $(i=1,2,\cdots,n)$ が小さい順(もしくは大きい順)に並んでいるとすると、中央値 $x_{M}$ の定義は $n$ が奇数か偶数かによって異なる。 \[ x_{M}=\left\{ \begin{array}{ll} x_{(n+1)/2} & (n が奇数)\\ \\ \displaystyle\frac{x_{n/2}+x_{(n/2)+1}}{2} & (n が偶数) \end{array} \right. \] 例えば、$x_{1},x_{2},x_{3},x_{4},x_{5}$($n=5$)の場合の中央値は以下の通りである。 \[ x_{M}=x_{(5+1)/2}=x_{3} \] | $x_{M}$\\ ↓ ||||| | $x_{1}$ | $x_{2}$ | $x_{3}$ | $x_{4}$ | $x_{5}$ | $x_{1},x_{2},x_{3},x_{4},x_{5},x_{6}$($n=6$)の場合の中央値は以下の通りである。 \[ x_{M}=\frac{x_{6/2}+x_{(6/2)+1}}{2}=\frac{x_{3}+x_{4}}{2} \] | $x_{M}$\\ ↓ |||||| | $x_{1}$ | $x_{2}$ | $x_{3}$ | $x_{4}$ | $x_{5}$ | $x_{6}$ | === 度数分布の中央値 === 度数分布の中央値は少し手間がかかる。 $i$ 番目の階級において下限値 $l_{i}$、上限値 $u_{i}$、累積度数 $F_{i}$ とすると、$F_{j-1}<\frac{n}{2}\le F_{j}$ を満たす $j$ 番目の階級に中央値が含まれるので、まずはその階級を見つける。 中央値を含む階級が見つかったら、一つの階級では観測値が一様に分布すると考え、線形補間で中央値を求める。 \[ x_{M}=l_{j}+q(u_{j}-l_{j}) \] ここで \[ q=\frac{\frac{n}{2}-F_{j-1}}{F_{j}-F_{j-1}} \] である。 ---- ==== 最頻値 ==== 観測値の中で最も多く現れる観測値を__**最頻値(モード)**__という。 === 生データの最頻値 === 離散型データの場合は同じ観測値がいくつ現れるかを数えて最頻値を求める。 連続型データの場合は定義が難しいので、度数分布表を作ってその最頻値を求めることを行う。 === 度数分布の最頻値 === 度数が最大となる階級値が最頻値で、ヒストグラムにすると最も高い峰の値のことである。 元が同じデータでも階級の取り方で最も高い峰は変わりうるので、最頻値が異なることがある。 最も高い峰が二つ以上あるような場合は、最頻値を一義的に定義することができない。 {{ mode.png?nolink |最頻値}} ===== 代表値の違い ===== 平均、中央値、最頻値は分布の中心を表すが、分布によってそれぞれ同じ値になるとは限らない。 * 左右対称の分布では「平均=中央値=最頻値」となる。 * 右に歪んだ分布では「最頻値<中央値<平均」となる。 * 左に歪んだ分布では「平均<中央値<最頻値」となる。 例えば、以下は [[dataset#データセット1]] の年齢の分布のグラフである。 代表値を計算すると、平均が 19.1歳、中央値が 18歳、最頻値が 17歳であった。 このように右に歪んだ分布(値が小さいほうに度数が偏った分布)では、「最頻値<中央値<平均」となる。 このような分布では、平均よりも最頻値の方を分布の中心とみなした方が分かりやすいだろう。 {{ statistics_ages.png?nolink |年齢の分布}} データに極端に大きい値や小さい値の__**外れ値**__がある場合、平均は外れ値に影響されやすいが、中央値は外れ値に影響されにくいという特徴がある。 例えば、以下の国語の点数のデータを考える。 $x_{5}=98$ は他の値より極端に値が大きい外れ値である。 ^ ^ $x_{1}$ ^ $x_{2}$ ^ $x_{3}$ ^ $x_{4}$ ^ $x_{5}$ ^ ^ 点数 | 3 | 8 | 11 | 15 | 98 | * 平均 $\bar{x}=\frac{3+8+11+15+98}{5}=27$ * 中央値 $x_{M}=x_{3}=11$ データ5つのうち4つは20点未満なのに、平均は外れ値の98点に引っ張られて20点を超えている。 それに対し、中央値は外れ値の影響をあまり受けていない。 ===== パーセンタイルと四分位数 ===== ==== パーセンタイル ==== 中央値を拡張したものに__**パーセンタイル(分位数)**__がある。 データを**小さい順に並べたとき**の小さい方から $100p$% のところの値を $100p$ パーセンタイルという($0\le p\le 1$)。 データを $p:1-p$ に分ける点ともいえる。 中央値は 50 パーセンタイル($p=0.5$)に等しい。 定義は省略。 ---- ==== 四分位数 ==== パーセンタイルのうち、特に 25%, 50%, 75% パーセンタイルを__**四分位数**__という。 これらはデータをちょうど四分割する点にあたるため__**四分位点**__ともいう。 * 第1四分位数 $Q_{1}$ = 25パーセンタイル * 第2四分位数 $Q_{2}$ = 50パーセンタイル(= 中央値) * 第3四分位数 $Q_{3}$ = 75パーセンタイル これに最小値 $Q_{0}$ と最大値 $Q_{4}$ を加えて $Q_{0},Q_{1},Q_{2},Q_{3},Q_{4}$ の5つの指標を__**五数要約**__という。 例えば、[[dataset#データセット1]] の身長のデータでは四分位数は以下のようになる(四分位数は定義によって少し値が異なることもある)。 * $Q_{1}=157.775\mathrm{[cm]}$ * $Q_{2}=164.1\mathrm{[cm]}$ * $Q_{3}=170.3\mathrm{[cm]}$ ヒストグラムで四分位数との対応を色分けで表すと以下のようになる。 身長 176.1cm の人は上位 25% のグループに入ることが一目で分かる。 {{ quartile_histogram.png?nolink |身長の四分位数}} 定義は省略。 ===== 散らばりの尺度 ===== __**散らばりの尺度**__は分布の広がりを表す指標である。 分布の代表値が同じであっても分布の形が同じとは限らない。 以下の三つの分布は全て左右対称で「平均=中央値=最頻値=0」であるが、分布の形は様々である。 {{ statistics_samecenter1.png?nolink |代表値が同じ様々な分布}} 分布の特徴を表すには代表値だけでは不十分で、散らばりの尺度も必要となる。 散らばりの尺度としては分散、標準偏差がよく使われる。 ---- ==== 偏差 ==== 分布の散らばりは平均からのずれで表せる。 個々のデータの平均からのずれ \[ x_{i}-\bar{x} \] を__**偏差**__という。 個々の偏差を全て取り入れて一つの値で分布の散らばりを表すことを考える。 単純に偏差の総和を計算すると \[ \sum_{i=1}^{n}(x_{i}-\bar{x})=n\bar{x}-n\bar{x}=0 \] このように必ず零になってしまうため、うまくいかない。 これは、個々の偏差は正の値や負の値があり、すべて足すと打ち消し合うためである。 ---- ==== 分散 ==== 偏差の総和が零になるのは偏差に負の値があるせいなので、 偏差のマイナスを無くすために、**偏差を二乗**して平均をとったものを__**分散**__ $S^{2}$ という。 分散が分布の散らばりを表す尺度になる。 分散はデータを二乗するため、単位もデータの単位の二乗になってしまうことに注意しよう。 例えば、データが長さの単位 $\mathrm{[m]}$(メートル)を持つ場合、分散の単位は面積の単位 $\mathrm{[m^{2}]}$(平方メートル)となってしまうため、分散をデータやその平均とは直接比べられない。 === 生データの分散 === 生データ $x_{i}$ $(i=1,2,\cdots,n)$ の分散 $S^{2}$ は以下の通りである(($S$ は大文字である。))。 \[ S^{2}=\frac{(x_{1}-\bar{x})^{2}+(x_{2}-\bar{x})^{2}+\cdots+(x_{n}-\bar{x})^{2}}{n} =\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2} \] === 度数分布の分散 === 度数分布の階級値 $v_{i}$、度数 $f_{i}$ $(i=1,2,\cdots,k)$ とすると、分散は以下の通りである。 \[ S^{2}=\frac{(v_{1}-\bar{x})^{2}f_{1}+(v_{2}-\bar{x})^{2}f_{2}+\cdots+(v_{k}-\bar{x})^{2}f_{k}}{n}=\frac{1}{n}\sum_{i=1}^{k}(v_{i}-\bar{x})^{2}f_{i} \] === 不偏分散 === 分散の分母の $n$ を $n-1$ に変えたものを__**不偏分散**__ $s^{2}$ という(($s$ は小文字である。))。 不偏分散は標本に対して使う分散で、主に推定や仮説検定で使用する。 \[ s^{2}=\frac{(x_{1}-\bar{x})^{2}+(x_{2}-\bar{x})^{2}+\cdots+(x_{n}-\bar{x})^{2}}{n-1} =\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2} \] ---- ==== 標準偏差 ===== 分散 $S^{2}$ の平方根(ルート)をとったものを__**標準偏差**__ $S$ という。 \[ S=\sqrt{S^{2}} \] 分散の単位はデータの単位の二乗になってしまうが、標準偏差の単位はデータの単位と同じになるため、データや平均と直接比べられる。 === 不偏標準偏差 === 不偏分散の平方根をとったものを__**不偏標準偏差**__ $s$ という。 不偏標準偏差は標本に対して使う標準偏差である。 \[ s=\sqrt{s^{2}} \] ===== 散らばりの尺度の違い ===== 先ほどの「平均=中央値=最頻値=0」の分布の分散 $S^{2}$ と標準偏差 $S$ は以下のようになる。 {{ statistics_samecenter2.png?nolink |様々な分布の分散と標準偏差}} ===== 偏差値 ===== データ $x_{i}$ を次の式で変換したものを__**偏差値(偏差値得点)**__という。 \[ T_{i}=\frac{10(x_{i}-\bar{x})}{S}+50 \] ここで $\bar{x}$ は $x_{i}$ の平均、$S$ は $x_{i}$ の標準偏差である。 この変換によって $T_{i}$ は平均が 50 、標準偏差が 10 のデータとなる。 偏差値は最低が 0 で最高が 100 と勘違いされがちだが、そのような範囲の制限は全く無い。 偏差値は 0 以下の値にも 100 以上の値にもなりうる。 ===== 関数 ===== ==== 代表値と散らばりの尺度の関数 ==== ^ 関数 ^ 説明 ^ | MIN(引数) | 引数の最小値を求める。 | | MAX(引数) | 引数の最大値を求める。 | | SUM(引数) | 引数の合計を求める。 | | AVERAGE(引数) | 引数の平均を求める。 | | MEDIAN(引数) | 引数の中央値を求める。 | | MODE(引数)\\ MODE.SNGL(引数) | 引数の最頻値を(一つ)求める。 | | VAR.P(引数) | 引数の分散を求める。 | | VAR.S(引数) | 引数の不偏分散を求める。 | | STDEV.P(引数) | 引数の標準偏差を求める。 | | STDEV.S(引数) | 引数の不偏標準偏差を求める。 | 以上の関数の引数には数値、セル、セル範囲のいずれかを記述する。 「'',''」で区切って複数記述することもできる。 MODE 関数と MODE.SNGL 関数は同じである。MODE 関数は古いバージョンの関数で、互換性のために残してある。 最頻値を複数個求める MODE.MULT 関数もある。 ---- ==== パーセンタイルと四分位数の関数 ==== ^ 関数 ^ 説明 ^ | PERCENTILE(セル範囲, p)\\ PERCENTILE.INC(セル範囲, p) | セル範囲のデータの $100p$ パーセンタイルを求める(定義1).\\ $p$ は $0\le p\le 1$ の実数である。 | | PERCENTILE.EXC(セル範囲, p) | セル範囲のデータの 100p パーセンタイルを求める(定義2).\\ $p$ は $\frac{1}{n+1}\le p\le \frac{n}{n+1}$ の実数である。 | | QUARTILE(セル範囲, タイプ)\\ QUARTILE.INC(セル範囲, タイプ) | セル範囲のデータの四分位数を求める(定義1)。\\ タイプは 0,1,2,3,4 のいずれかで、$Q_{0},Q_{1},Q_{2},Q_{3},Q_{4}$ に対応する。 | | QUARTILE.EXC(セル範囲, タイプ) | セル範囲のデータの四分位数を求める(定義2)。\\ タイプは 1,2,3 のいずれかで、$Q_{1},Q_{2},Q_{3}$ に対応する。 | PERCENTILE 関数と PERCENTILE.INC 関数は同じである。QUARTILE 関数と QUARTILE.INC 関数も同じである。PERCENTILE 関数と QUARTILE 関数は古いバージョンの関数で、互換性のために残してある。 ===== 演習:代表値と散らばりの尺度の計算(生データ) ===== * 使用するデータセット:[[dataset#データセット1]] 列 D の「身長」のデータから代表値、散らばりの尺度、四分位数を求める。 ---- ==== 平均 ==== * 空のセルに「''=AVERAGE(D2:D501)''」と入力する。 ---- ==== 中央値 ==== * 空のセルに「''=MEDIAN(D2:D501)''」と入力する。 ---- ==== 最頻値 ==== * 空のセルに「''=MODE(D2:D501)''」と入力する。 * この生データで最頻値を見てもあまり意味はない。 ---- ==== 分散 ==== * 分散は、空のセルに「''=VAR.P(D2:D501)''」と入力する。 * 不偏分散は、空のセルに「''=VAR.S(D2:D501)''」と入力する。 ---- ==== 標準偏差 ==== * 標準偏差は、空のセルに「''=STDEV.P(D2:D501)''」と入力する。 * 不偏標準偏差は、空のセルに「''=STDEV.S(D2:D501)''」と入力する。 標準偏差は、分散を求めた後に「''=SQRT(分散のセル)''」と入力して求めても良い。 SQRT 関数は引数の平方根(ルート)を計算する関数である。 ---- ==== 四分位数 ==== * $Q_{1}$ は、空のセルに「''%%=QUARTILE.INC(D2:D501,1)%%''」と入力する。 * $Q_{2}$ は、空のセルに「''%%=QUARTILE.INC(D2:D501,2)%%''」と入力する。 * $Q_{3}$ は、空のセルに「''%%=QUARTILE.INC(D2:D501,3)%%''」と入力する。 ===== 演習:代表値と散らばりの尺度の計算(度数分布) ===== [[lecture4#演習:度数分布表の作成]] で作成した身長の度数分布から代表値と散らばりの尺度を求める。 生データで求めた代表値と散らばりの尺度と比較してみよう。 ---- ==== 平均 ==== * 空のセルに「''=SUMPRODUCT(J3:J12,K3:K12)/500''」と入力する。 ---- ==== 中央値 ==== * $\frac{n}{2}=250$ なので、5番目の階級に中央値が含まれる。 * 空のセルに「''=H7+(250-L6)/(L7-L6)*(I7-H7)''」と入力する。 ---- ==== 最頻値 ==== * 度数が最大となる階級値が最頻値である。 * 自分の目で見つけた方が早いが、空のセルに「''%%=INDEX(J3:J12,MATCH(MAX(K3:K12),K3:K12,0))%%''」と入力してもよい。 ---- ==== 分散 ==== * 空のセルに「''=SUMPRODUCT((J3:J12-平均)^2,K3:K12)/500''」と入力する。この SUMPRODUCT 関数の引数には上で求めた「平均」のセルもしくは値を入力する。 ---- ==== 標準偏差 ==== * 「''=SQRT(度数分布表の分散)''」と入力する。この SQRT 関数の引数には上で求めた「度数分布表の分散」のセルもしくは値を入力する。 ===== 課題 ===== [[dataset#データセット1]] の「体重」のデータから代表値、散らばりの尺度、四分位数を求めなさい。 作成したファイルは ODF 表計算ドキュメント(拡張子 .ods)で提出すること。