====== 【データリテラシー】第9回 2変量データと相関 ====== ===== 相関関係 ===== 2変量 $X$, $Y$ のデータがあるとする。 $X$ と $Y$ の間の関係のことを__**相関関係**__という。 特に統計学では $X$ と $Y$ の間に比例関係(直線関係)に近い傾向が見られることを「相関関係がある」という。 ---- ==== 相関の正負 ==== * __**正の相関**__:$X$ が増加するにつれて $Y$ も増加する。 * __**負の相関**__:$X$ が増加するにつれて $Y$ は減少する。 ---- ==== 相関の程度 ==== 相関の程度は強い相関、弱い相関で表現する。 * __**強い相関**__:$X$ と $Y$ が直線的な関係に近い。 * __**弱い相関**__:$X$ と $Y$ が直線的な関係から離れている。 極端な場合は完全相関や無相関という。 * __**完全相関**__:$X$ と $Y$ が完全に直線的な関係にある。 * __**無相関**__:$X$ と $Y$ がバラバラで全く直線的な関係にない。 ---- ==== 相関の例 ==== 以下は都道府県庁所在市の緯度と年平均気温(2019年)の散布図である。 緯度((緯度は地球上の南北の位置を角度で表したものである。赤道が 0°で、北極が 90° である。))が高くなるにつれて年平均気温は低くなる傾向にあることが分かる。 簡単にいえば、日本では北ほど寒く、南ほど暖かいということである。 点はほぼ直線状に並んでいるので、緯度と年平均気温は「強い負の相関」を持つといえる。 {{ data_literacy_past:2021:graph_correlation1.png?nolink |都道府県庁所在市の緯度と年平均気温(2019年)の散布図}} 出典:[[https://www.data.jma.go.jp/obd/stats/etrn/index.php|気象庁「過去の気象データ検索」(参照 2021-09-12)]] ===== 相関係数 ===== 相関関係を数量的に表す指標を__**相関係数**__という。 相関係数の定義にはいくつかあるが、いずれも以下の性質がある。 * $-1$ から $1$ までの値しかとらない。 * 値が正なら「正の相関」、負なら「負の相関」を表す。 * 値が $\pm 1$ に近いほど「強い相関」、$0$ に近いほど「弱い相関」を表す。 * 値が $\pm 1$ なら「完全相関」、$0$ なら「無相関」を表す。 相関係数がどのくらいであれば「強い」「弱い」といえるのかは、相関係数の定義と扱う分野によって異なるので一概にはいえない。 以下は、様々なグラフの相関係数 $r$ (ピアソンの積率相関係数)と相関関係の対応を図示したものである。 {{ data_literacy_past:2021:r_type.png?nolink |様々なグラフの相関係数}} ---- ==== ピアソンの積率相関係数 ==== __**ピアソンの積率相関係数**__はイギリスの統計学者カール・ピアソンが考案した相関係数で、単に「相関係数」といえばこれを指すことが多い。 2変量のデータ $(X_{i},Y_{i})$ $(i=1,2,\cdots,n)$ に対するピアソンの積率相関係数 $r$ の定義は以下の通りである。 \[ r=\frac{C_{XY}}{S_{X}S_{Y}} \] ここで $S_{X}, S_{Y}$ はそれぞれ $X$, $Y$ の標準偏差で、$C_{XY}$ は共分散という。 \[ S_{X}=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}} \] \[ S_{Y}=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(Y_{i}-\bar{Y})^{2}} \] \[ C_{XY}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})(Y_{i}-\bar{Y}) \] $X$ と $Y$ は入れ替えても $C_{XY}=C_{YX}$ なので、 $r$ は変わらない。 都道府県庁所在市の緯度と年平均気温(2019年)のデータで相関係数を求めると $r=-0.962$ であるため「強い負の相関」を示している。 ---- ==== スピアマンの順位相関係数 ==== __**スピアマンの順位相関係数**__はイギリスの心理学者チャールズ・スピアマンが考案した相関係数である。 順位(順序尺度)データから求められる相関係数であるが、順位のデータでなくても順位を付ければよい。 2変量の順位データ $(R_{i},R_{i}^{\prime})$ $(i=1,2,\cdots,n)$ に対する スピアマンの順位相関係数 $r_{S}$ の定義は以下の通りである。 \[ r_{S}=1-\frac{6}{n^{3}-n}\sum_{i=1}^{n}(R_{i}-R^{\prime}_{i})^{2} \] 同順位がある場合は修正(タイ修正)が必要となるが、ここでは述べない。 同順位が少なければ修正しなくてもあまり影響はない。 ===== 相関行列 ===== 相関係数は2変量の間で求められる値である。 3変量以上の場合は、それぞれの変数から2変量の組み合わせを考えて、それぞれの組み合わせで相関係数を求める。 この、それぞれの組み合わせで求めた相関係数を行列(または表)の形で表したものを__**相関行列**__という。 例えば、$W, X, Y, Z$ の4変量のデータの場合、2変量の組み合わせは $_{4}C_{2}=\frac{4!}{2!(4-2)!}=6$ 通り(($_{n}C_{k}=\frac{n!}{k!(n-k)!}$ は二項係数という。))あるため、相関係数は次の 6つである。 ^ 変数1 ^ 変数2 ^ 相関係数 ^ | $W$ | $X$ | $r_{\tiny WX}=r_{\tiny XW}$ | | $W$ | $Y$ | $r_{\tiny WY}=r_{\tiny YW}$ | | $W$ | $Z$ | $r_{\tiny WZ}=r_{\tiny ZW}$ | | $X$ | $Y$ | $r_{\tiny XY}=r_{\tiny YX}$ | | $X$ | $Z$ | $r_{\tiny XZ}=r_{\tiny ZX}$ | | $Y$ | $Z$ | $r_{\tiny YZ}=r_{\tiny_ZY}$ | 変数1 と変数2 は入れ替えても相関係数は変わらない。 これを相関行列として表すと以下のようになる。 ^ ^ $W$ ^ $X$ ^ $Y$ ^ $Z$ ^ ^ $W$ | 1 | $r_{\tiny XW}$ | $r_{\tiny YW}$ | $r_{\tiny ZW}$ | ^ $X$ | $r_{\tiny WX}$ | 1 | $r_{\tiny YX}$ | $r_{\tiny ZX}$ | ^ $Y$ | $r_{\tiny WY}$ | $r_{\tiny XY}$ | 1 | $r_{\tiny ZY}$ | ^ $Z$ | $r_{\tiny WZ}$ | $r_{\tiny XZ}$ | $r_{\tiny YZ}$ | 1 | 対角線上にある相関係数は、同じ変量同士の相関係数なので、必ず $1$ になる。 対角線の右上の相関係数は、対角線の左下の相関係数と同じなので省略されることが多い。 ===== 相関係数の関数 ===== ^ 関数 ^ 説明 ^ | CORREL(セル範囲1, セル範囲2) | セル範囲1 とセル範囲 2 のデータの相関係数(ピアソンの積率相関係数)を求める。 | CORREL 関数では1組の変数の相関係数を求めることができる。 複数の変数の組み合わせの相関係数(相関行列)を求めたい場合は、LibreOffice Calc や Microsoft Office には相関行列を求める機能が備わっているので、それを利用すると良い。 ===== 外れ値の影響 ===== データの集団から大きく外れる値を__**外れ値**__という。 外れ値が生じる原因は、観測時の間違いやデータ入力の間違いなど様々である。 何も間違いがないのに外れ値が生じることもある。 相関係数は外れ値によって大きく影響を受けることがあるので、散布図を描いて確認してみることが必要である。 外れ値が生じた場合は、その原因を調査して間違いであれば修正したり取り除く必要がある。 例として以下のデータを考える。 ^ 番号 ^ X ^ Y ^ | 1 | 0.2 | 0.5 | | 2 | 0.1 | 0.4 | | 3 | 0.4 | 0.3 | | 4 | 0.5 | 0.1 | | 5 | 0.3 | 0.2 | | 6 | 2 | 2 | このデータのピアソンの積率相関係数は $r=0.928$ であり、これだけを見ると強い正の相関があると思うかもしれない。 しかし、散布図を描いてみると 6番目のデータはその他のデータと比べて大きく異なるため、外れ値であることが分かる。 {{ data_literacy_past:2021:graph_outlier1.png?nolink |外れ値}} この外れ値を外して 1から5番目までのデータでピアソンの相関係数を計算すると $r=-0.8$ であり、先ほどと真逆の相関関係になる。 ===== 因果関係と相関関係 ===== __**因果関係**__とは2つの物事が原因と結果の関係にあることである。 原因の方を変化させるとそれに応じて結果も変化する。 それに対し、相関関係とは2つの物事の間に(直線的な)関係性があることであり、どちらが原因でどちらが結果ということまでは分からない。 つまり、相関関係があるからといって無条件に因果関係があるとはいえない。 2つの物事の間に相関関係が見られた場合に、その2つがどういう関係で増えたり減ったりするのかをよく考えて解釈しなければならない。 ---- ==== 因果関係の逆転 ==== 気温とTシャツの売上の間には正の相関関係がある。 気温の上昇とともにTシャツの売上が増えるのは、暑くなるとみんな薄着になるからである。 つまり、気温が原因でTシャツの売上が結果という因果関係にある。 この因果関係を逆に考えて、Tシャツを売れなくすれば気温が下がるかというと、それはありえないだろう。 ---- ==== 疑似相関 ==== 家計調査とは、総務省統計局が全国の世帯を対象に家計収支の実態を把握するために行っている標本調査である。 2020年の家計調査における全国の都道府県庁所在市の品目別支出額の総世帯平均より、ほたて貝と灯油への一人当たりの平均支出額を算出し、散布図にしたものが以下のグラフである。 {{ data_literacy_past:2021:spurious_correlation.png?nolink |疑似相関の例}} 出典:[[https://www.stat.go.jp/data/kakei/2020np/index.html|総務省統計局「家計調査年報(家計収支編)2020年(令和2年)」(参照 2021-09-09)]] ほたて貝への支出額が多いと灯油への支出額も多いという正の相関が見られる($r=0.778$)。 しかし、ほたて貝と灯油が直接何か関係してるようには思えない。 このように一見関係なさそうなことの間に相関関係が見られることを__**疑似相関**__という。 ほたて貝と灯油の支出で共通しているのは、緯度の高い市ほど支出額が多く、緯度の低い市ほど支出額が少ないということである。 ^ 都道府県庁所在市 ^ 都道府県庁の緯度 [°] ^ ほたて貝の支出額 [円/人] ^ 灯油の支出額 [円/人] ^ | 札幌市 | 43.064 | 904.4 | 28974.6 | | 青森市 | 40.084 | 1469.6 | 28349.4 | | 盛岡市 | 39.704 | 526.0 | 18159.3 | | 仙台市 | 38.269 | 671.2 | 11867.7 | | ⋮ | ⋮ | ⋮ | ⋮ | | 鹿児島市 | 31.560 | 263.9 | 1693.1 | | 沖縄市 | 26.213 | 177.9 | 787.7 | ほたて貝は水温が低いところを好むため、北の方ほど養殖が盛んで消費も多い。 また、北の方ほど冬は寒いので暖房に灯油を使う量が多くなる。 緯度がほたて貝と灯油の支出額のどちらにも影響しているように思われる。 この例の緯度のような疑似相関における隠れた要因を__**交絡要因**__という。 ===== 演習:相関行列 ===== * 使用するデータセット:[[dataset#データセット1]] 「年齢」「身長」「体重」の3変量の相関行列を求める。 LibreOffice Calc には相関行列を求める機能があるので、それを使用する。 - 列 C から列 E までを選択する(入力データ)。 - メニューバーの ''**[データ]**''%%→%%''**[統計]**''%%→%%''**[相関]**'' を選択すると「相関」のダイアログが開く。 - 「データ」の「結果貼り付け先」に結果を出力したい空のセルを指定する。 - 「データ方向」はデータが列方向に並んでいるので ''**[列]**'' を選択する。 - ''**[OK]**'' をクリックすると相関行列が出力される。 - 出力された相関行列の項目は「列1」「列2」などになって分かりにくいので、入力データのラベルをコピー&ペーストで貼り付けると良い。 この機能で用いる入力データは連続したセル範囲になければならない。 Microsoft Excel の分析ツールにも相関行列を求める機能がある。 分析ツールは初期状態では使えないので、アドインの設定で有効にする必要がある。 \\ ===== 課題 ===== [[dataset#データセット2]] の各科目間の相関行列を求めなさい。 全部で6科目あるので6変量のデータである。 作成したファイルは ODFスプレッドシート(拡張子 .ods)で提出すること。