【データリテラシー】第10回 データの比較
層別の分析が必要なデータ
性別のような異なる属性が混ざっているようなデータは、属性ごとに分けて層別のデータにして分析する必要がある。
以下は データセット1 の身長と体重の散布図である。
このデータを男女別に分けて散布図を描くと以下のようになる。
男女で関係性が異なるデータを混ぜてしまうと、散らばりが大きくなり関係性も変わってしまうことが分かる。
条件をそろえた比較
データの比較をする際には、単にグループに分けてグラフにするだけではなく、条件をそろえた比較が必要である。
例えば、以下のヒストグラムは データセット2 の授業外学修時間のヒストグラムである。 左は経営コース2年、右は政策コース3年である。
この二つのヒストグラムを比較する意味はあるだろうか。
- コースによる授業外学修時間の違いを比較するなら、学年をそろえて比較した方がよい。
- 学年による授業外学修時間の違いを比較するなら、同じコースにするか、コースで分けずに比較した方がよい。
処理の前後での比較
ある処理の効果を測るためには、その処理を行う前と後で同じ条件で観測したデータを比較する必要がある。
このような比較を行う場合、対象の集団を無作為に2つ以上の群に分け、処理を行う群(治療群、実験群など)と処理を行わない群(対照群、統制群など)で比較するランダム化比較試験がよく行われる。
特に新薬の臨床試験では、プラセボ効果1)を区別するために治療群の患者には新薬、対照群の患者には偽薬を投与する。 さらに、患者と薬を投与する医者にはどれが新薬か偽薬かは知らされない。 これを二重盲検法という。
シンプソンのパラドックス
集団を分けて得られた結果と集団を合わせて得られた結果が正反対になることをシンプソンのパラドックスという。
例として、ある架空の A 県と B 県において 5月1日と5月2日に新型コロナウイルス検査を行って以下のデータが得られたとする。 5月1日と5月2日の件数を合計して2日間の陽性率も出している。
A県
検査件数 | 陽性件数 | 陽性率 | |
---|---|---|---|
5月1日 | 10 | 1 | 1/10=0.1=10% |
5月2日 | 90 | 18 | 18/90=0.2=20% |
2日間 | 100 | 19 | 19/100=0.19=19% |
B県
検査件数 | 陽性件数 | 陽性率 | |
---|---|---|---|
5月1日 | 80 | 12 | 12/80=0.15=15% |
5月2日 | 20 | 5 | 5/20=0.25=25% |
2日間 | 100 | 17 | 17/100=0.17=17% |
A県と B県の陽性率をまとめると以下のようになる。
A県 | B県 | |
---|---|---|
5月1日 | 10% | 15% |
5月2日 | 20% | 25% |
2日間 | 19% | 17% |
5月1日と5月2日の陽性率はともに A 県より B 県の方が高いため、2 日間合わせても A 県より B 県の方が高いだろうと思うかもしれない。 しかし、実際に 2 日間を合わせて陽性率を見ると B 県より A 県の方が高いという結果になる。 このようなことが起こるのは、2日間で A 県と B 県の検査件数が 100 件で同じでも、各日で検査件数が異なるためである。
演習:層別の散布図
層別データの抽出
男女別の層別データを別のシートに抽出する。
- 下側のシートタブにある「+」をクリックして新しいシートを追加する。「Sheet2」という名前のシートが追加される。
- シートタブの「dataset1」をクリックして初めのシートに戻る。
- データのセル(どれでもよい)を選択してメニューバーの
[データ]
→[オートフィルター]
を選択するか、ツールバーの[オートフィルター]
のボタンをクリックすると、ラベルの各セルに[▼]
のマークがつく。 - 「性別」の
[▼]
をクリックして[女]
のチェックを外して、[男]
のチェックを付ける。 - 列 A から列 E をコピーして、シート「Sheet2」の列 A に貼り付ける。列 D が「身長[cm]」、列 E が「体重[kg]」の男のデータになる。
- シートタブの「dataset1」をクリックして初めのシートに戻る。
- 「性別」の
[▼]
をクリックして[男]
のチェックを外して、[女]
のチェックを付ける。 - 列 A から列 E をコピーして、シート「Sheet2」の列 G に貼り付ける。列 J が「身長[cm]」、列 K が「体重[kg]」の女のデータになる。
これで抽出されるデータ数は男が 254(行 2 から 行 255)、女が 248 (行 2 から行 249)である。
以下ではシート「Sheet2」で操作を行う。
男のデータの選択
- セル D2 から E254 の範囲を選択する。
- メニューバーの
[挿入]
→[グラフ]
を選択してグラフウィザードのダイアログを表示する。
① グラフの種類
[散布図]
を選択する。- 右側の4つある種類から
[点のみ]
を選択する(デフォルトで選択されている)。 [次へ]
をクリックする。
② データ範囲
はじめにデータ範囲を指定したので、ここでは何もしなくてよい。
[次へ]
をクリックする。
③ データ系列
データ範囲から自動的に X 値と Y 値が設定される。
- 「データ範囲」の
[名前]
をクリックし、「名前の範囲」に「男」と入力する。 [次へ]
をクリックする。
④ グラフ要素
- 「タイトル」に「データセット1の身長と体重の分布」と入力する。
- 「X 軸」に「身長 [cm]」と入力する。
- 「Y 軸」に「体重 [kg]」と入力する。
- 「グリッド線を表示」の
[X軸]
と[Y軸]
にチェックを入れる。 [完了]
をクリックする。
これで散布図に男のデータ系列が描かれる。
女のデータの追加
- グラフ編集モードにする。
- グラフの上で右クリックしてコンテキストメニューから
[データの範囲]
を選択して「データ範囲」のダイアログを表示する。 [データ系列]
タブをクリックする。[追加]
をクリックすると「データ系列」に[系列]
が追加される。- 追加された
[系列]
をクリックする。 - 「データ範囲」の
[名前]
をクリックし、「名前の範囲」に「女」と入力する。 - 「データ範囲」の
[X値]
をクリックし、「X値の範囲」の入力フォームの右側にあるアイコンをクリックし、セル J2 から J248 の範囲を選択する。 - 「データ範囲」の
[Y値]
をクリックし、「Y値の範囲」の入力フォームの右側のアイコンをクリックし、セル K2 から K248 の範囲を選択する。 [OK]
をクリックする。
これで散布図に女のデータ系列が追加される。
点を小さくする
- グラフ編集モードにする。
- グラフ上の青い四角の点をダブルクリックして「データ系列」のダイアログを表示する。
[線]
タブをクリックする。- 「アイコン」の「幅」と「高さ」の値を [0.05 cm] にする。
[OK]
をクリックする。- グラフ上の赤い四角の点をダブルクリックして「データ系列」のダイアログを表示する。
[線]
タブをクリックする。- 「アイコン」の「幅」と「高さ」の値を [0.05 cm] にする。
[OK]
をクリックする。
点の種類を変える
モノクロの場合に対応するためには、点の種類を変えるとよい。
- グラフ編集モードにする。
- グラフ上の青い四角の点をダブルクリックして「データ系列」のダイアログを表示する。
[線]
タブをクリックする。- 「線の属性」の「色」を「灰色」(のどれか)にする。
- 「アイコン」の「選択」から [シンボル]→[▼] を選択する。
- 「アイコン」の「幅」と「高さ」の値を [0.15 cm] にする。
[OK]
をクリックする。- グラフ上の赤い四角の点をダブルクリックして「データ系列」のダイアログを表示する。
[線]
タブをクリックする。- 「線の属性」の「色」を「黒色」にする。
- 「アイコン」の「選択」から [シンボル]→[×] を選択する。
- 「アイコン」の「幅」と「高さ」の値を「0.15 cm」にする。
[OK]
をクリックする。
相関係数の比較
「身長」と「体重」の相関係数を全体、男、女で比較する。
全体の相関係数
- シートタブの「dataset1」をクリックする。
- メニューバーの
[データ]
→[オートフィルター]
を選択するか、ツールバーの[オートフィルター]
のボタンをクリックしてオートフィルタを解除する。 - 空のセルに「
=CORREL(D2:D501,E2:E501)
」と入力して全体の相関係数を求める。
男女の相関係数
- シートタブの「Sheet2」をクリックする。
- 空のセルに「
=CORREL(D2:D254,E2:E254)
」と入力して男の相関係数を求める。 - 空のセルに「
=CORREL(J2:J248,K2:K248)
」と入力して女の相関係数を求める。
課題
データセット2 において、学年別の「授業外学修時間」と「経営学基礎」の散布図を描きなさい。 横軸を「授業外学修時間 [h]」、縦軸を「経営学基礎」とし、学年は 2,3,4 年で色分けしなさい。
作成したファイルは ODFスプレッドシート(拡張子 .ods)で提出すること。