性別のような異なる属性が混ざっているようなデータは、属性ごとに分けて層別のデータにして分析する必要がある。
以下は データセット1 の身長と体重の散布図である。
このデータを男女別に分けて散布図を描くと以下のようになる。
男女で関係性が異なるデータを混ぜてしまうと、散らばりが大きくなり関係性も変わってしまうことが分かる。
データの比較をする際には、単にグループに分けてグラフにするだけではなく、条件をそろえた比較が必要である。
例えば、以下のヒストグラムは データセット2 の授業外学修時間のヒストグラムである。 左は経営コース2年、右は政策コース3年である。
この二つのヒストグラムを比較する意味はあるだろうか。
ある処理の効果を測るためには、その処理を行う前と後で同じ条件で観測したデータを比較する必要がある。
このような比較を行う場合、対象の集団を無作為に2つ以上の群に分け、処理を行う群(治療群、実験群など)と処理を行わない群(対照群、統制群など)で比較するランダム化比較試験がよく行われる。
特に新薬の臨床試験では、プラセボ効果1)を区別するために治療群の患者には新薬、対照群の患者には偽薬を投与する。 さらに、患者と薬を投与する医者にはどれが新薬か偽薬かは知らされない。 これを二重盲検法という。
集団を分けて得られた結果と集団を合わせて得られた結果が正反対になることをシンプソンのパラドックスという。
例として、ある架空の A 県と B 県において 5月1日と5月2日に新型コロナウイルス検査を行って以下のデータが得られたとする。 5月1日と5月2日の件数を合計して2日間の陽性率も出している。
A県
検査件数 | 陽性件数 | 陽性率 | |
---|---|---|---|
5月1日 | 10 | 1 | 1/10=0.1=10% |
5月2日 | 90 | 18 | 18/90=0.2=20% |
2日間 | 100 | 19 | 19/100=0.19=19% |
B県
検査件数 | 陽性件数 | 陽性率 | |
---|---|---|---|
5月1日 | 80 | 12 | 12/80=0.15=15% |
5月2日 | 20 | 5 | 5/20=0.25=25% |
2日間 | 100 | 17 | 17/100=0.17=17% |
A県と B県の陽性率をまとめると以下のようになる。
A県 | B県 | |
---|---|---|
5月1日 | 10% | 15% |
5月2日 | 20% | 25% |
2日間 | 19% | 17% |
5月1日と5月2日の陽性率はともに A 県より B 県の方が高いため、2 日間合わせても A 県より B 県の方が高いだろうと思うかもしれない。 しかし、実際に 2 日間を合わせて陽性率を見ると B 県より A 県の方が高いという結果になる。 このようなことが起こるのは、2日間で A 県と B 県の検査件数が 100 件で同じでも、各日で検査件数が異なるためである。
男女別の層別データを別のシートに抽出する。
[データ]
→[オートフィルター]
を選択するか、ツールバーの [オートフィルター]
のボタンをクリックすると、ラベルの各セルに [▼]
のマークがつく。[▼]
をクリックして [女]
のチェックを外して、[男]
のチェックを付ける。[▼]
をクリックして [男]
のチェックを外して、[女]
のチェックを付ける。これで抽出されるデータ数は男が 254(行 2 から 行 255)、女が 248 (行 2 から行 249)である。
以下ではシート「Sheet2」で操作を行う。
[挿入]
→[グラフ]
を選択してグラフウィザードのダイアログを表示する。[散布図]
を選択する。[点のみ]
を選択する(デフォルトで選択されている)。[次へ]
をクリックする。はじめにデータ範囲を指定したので、ここでは何もしなくてよい。
[次へ]
をクリックする。データ範囲から自動的に X 値と Y 値が設定される。
[名前]
をクリックし、「名前の範囲」に「男」と入力する。[次へ]
をクリックする。[X軸]
と [Y軸]
にチェックを入れる。[完了]
をクリックする。これで散布図に男のデータ系列が描かれる。
[データの範囲]
を選択して「データ範囲」のダイアログを表示する。[データ系列]
タブをクリックする。[追加]
をクリックすると「データ系列」に [系列]
が追加される。[系列]
をクリックする。[名前]
をクリックし、「名前の範囲」に「女」と入力する。[X値]
をクリックし、「X値の範囲」の入力フォームの右側にあるアイコンをクリックし、セル J2 から J248 の範囲を選択する。[Y値]
をクリックし、「Y値の範囲」の入力フォームの右側のアイコンをクリックし、セル K2 から K248 の範囲を選択する。[OK]
をクリックする。これで散布図に女のデータ系列が追加される。
[線]
タブをクリックする。[OK]
をクリックする。[線]
タブをクリックする。[OK]
をクリックする。
モノクロの場合に対応するためには、点の種類を変えるとよい。
[線]
タブをクリックする。[OK]
をクリックする。[線]
タブをクリックする。[OK]
をクリックする。
「身長」と「体重」の相関係数を全体、男、女で比較する。
全体の相関係数
[データ]
→[オートフィルター]
を選択するか、ツールバーの [オートフィルター]
のボタンをクリックしてオートフィルタを解除する。=CORREL(D2:D501,E2:E501)
」と入力して全体の相関係数を求める。男女の相関係数
=CORREL(D2:D254,E2:E254)
」と入力して男の相関係数を求める。=CORREL(J2:J248,K2:K248)
」と入力して女の相関係数を求める。データセット2 において、学年別の「授業外学修時間」と「経営学基礎」の散布図を描きなさい。 横軸を「授業外学修時間 [h]」、縦軸を「経営学基礎」とし、学年は 2,3,4 年で色分けしなさい。
作成したファイルは ODFスプレッドシート(拡張子 .ods)で提出すること。