ここではデータの分布の特徴を可視化するために便利なグラフを扱う。
グラフにはその用途に応じて様々な種類があるが、一般的によく使われるグラフは以下のグラフである。
棒グラフ(bar chart)は、長方形の棒の長さでデータの大小を表すグラフである。
以下は公益大の在籍者数の推移を棒グラフで表したものである。
以下は学年ごとに積み上げ棒グラフで表している。
円グラフ(pie chart)は、円を扇形に分割し、扇形の大きさ(角度)で割合を表すグラフである。
以下は公益大の出身地別の入学者数を円グラフで表したものである。 系列の色とフォントの色が同系統だと見にくくなるので、フォントの効果でアウトラインを付けてみやすくしている。
折れ線グラフ(line chart)は、データを点でプロットし、その点を線で結んだグラフである。
以下は東北6県の人口の推移を表す折れ線グラフである。
出典:総務省統計局「国勢調査」(参照 2020-10-01)
散布図(scatter chart)は、2変数のデータがあるときに縦軸(Y 軸)と横軸(X 軸)にそれぞれの変数を対応させ、各データを点などで描いた(プロットした)グラフである。
以下は データセット1 の身長と体重の散布図である。 横軸に身長、縦軸に体重をとっている。 身長が大きいと体重も大きくなるような関係性があることが分かる。 これを相関関係というが、詳しくは後の回で扱う。
ヒートマップ(heat map)は、散布図でデータの密度を色で表現したグラフである。
以下は地図上で酒田市の一般世帯数の密度をメッシュの色で表したヒートマップである。 メッシュ(四角の網目)の一辺は 250m である。 色によって密度の高い場所、低い場所が一目で分かる。
出典:総務省統計局「地図で見る統計(jSTAT MAP)」(参照 2021-09-02)
LibreOffice Calc や Microsoft Excel のグラフ作成にヒートマップを描く機能はないが、セルの条件付き書式を使うとヒートマップを描くことができる。
箱ひげ図(box plot)は、データを小さい順に並べたときの分布を 四分位数(もしくは五数要約)を使って「箱」と「ひげ」の長さで表したグラフである。 データがどの付近に集中して分布しているのかが見やすく、特に複数の分布を比較するのに有効なグラフである。 ただし、峰が複数あるような分布だと適切に表すことができないので注意が必要である。
以下は データセット1 の身長の箱ひげ図である(統計ソフトR を使用)。 箱ひげ図の定義にはいくつかあるが、 ここでの定義は、箱の真ん中の線は中央値 $Q_{2}$ で、箱の下端が第1四分位数 $Q_{1}$、上端が第3四分位数 $Q_{3}$ を表し、箱から上下に伸びるひげの下端が最小値 $Q_{0}$ 、上端が最大値 $Q_{4}$ を表すものとする。 $Q_{2}$ の近くにある「×」は平均の位置を表すが、箱ひげ図には平均を描かないこともある。
$Q_{0}$ から $Q_{1}$ は下位25%、$Q_{1}$ から $Q_{3}$ は中位50%、$Q_{3}$ から $Q_{4}$ は上位25% にあたる。
以下は データセット1 の男女別の身長の箱ひげ図である。 男女で身長の分布に違いがあることが一目で分かる。
LibreOffice Calc でグラフを作成するには「グラフウィザード」を使用する。
まずグラフにしたいデータの範囲を選択する。
その後、以下の操作で「グラフウィザード」のダイアログを表示する。
メニューバー | [挿入] →[グラフ] を選択 |
---|---|
ツールバー | [グラフを挿入] ボタンをクリック |
グラフウィザードでは次の4つのステップでグラフを設定する。
各ステップは [次へ]
で次のステップ、[戻る]
で前のステップに移動する。
途中でも [完了]
をクリックするとグラフウィザードを終了し、グラフが描かれる。
グラフの種類を選択する。
グラフの種類を選択 | グラフの種類 |
---|---|
縦棒 | 棒グラフ(縦棒) |
横棒 | 棒グラフ(横棒) |
扇形 | 円グラフ |
面 | 面グラフ |
線 | 折れ線グラフ(横軸が質的変数) |
散布図 | 散布図、折れ線グラフ |
3Dルックはグラフが立体的になって見栄えがよくなるかもしれないが、グラフからデータを読み取りにくくなるので使わない方がよい。
グラフにするデータ範囲を選択する。 グラフウィザードを表示する前にデータ範囲を選択していれば、ここはある程度自動的に設定してくれる。
設定項目 | 説明 |
---|---|
データ範囲 | グラフに表示するデータの範囲を指定する。 入力フォームの右の [データ範囲の選択] ボタンをクリックするとマウスで範囲が選択できる。 |
行内のデータ系列 列内のデータ系列 | データ範囲において、一つの系列のデータが行方向もしくは列方向に並んでいるかいずれかを選択する。 |
最初の行を項目名に引用 | データ範囲の最初の行をラベルとして使用するかを選択する。 |
最初の列を項目名に引用 | データ範囲の最初の列をラベルとして使用するかを選択する。 |
データ系列は②データ範囲で指定したデータからある程度自動的に判別してくれるが、ここではより細かいデータ系列の設定を行える。
設定項目 | 説明 | |
---|---|---|
データ系列 | 設定するデータ系列を選択する。[追加] [削除] で系列を追加したり削除したりする。[↑] [↓] で系列の順序を入れ替える。 |
|
データ範囲 | 設定したいパラメータのデータ範囲を選択する。 選択したパラメータのデータ範囲はその下の入力フォームに直接入力するか、その右のボタンをクリックしてマウスで範囲選択する。 |
|
枠線の色 | 枠線の色のセルを選択する。 | |
塗りつぶしの色 | 塗りぶつしの色のセルを選択する。 | |
名前 | 系列名の書かれたセルを選択する。文字列を直接入力しても良いが少し制限がある。 | |
X値 | X軸のデータ範囲を選択する。 | |
Y値 | Y軸のデータ範囲を選択する。 | |
範囲 | ラベルの書かれたセル範囲を選択する。 棒グラフだとX軸のラベルであったり、円グラフだと系列名であったりとグラフの種類によって役割が異なる。 入力フォームに直接入力するか、その右のボタンをクリックしてマウスで範囲選択する。 |
|
データラベル | 散布図でデータラベルの書かれたセル範囲を選択する。 入力フォームに直接入力するか、その右のボタンをクリックしてマウスで範囲選択する。 |
設定項目 | 説明 |
---|---|
タイトル | グラフのタイトルを入力する。 |
サブタイトル | グラフのサブタイトルを入力する。 |
X軸 | X軸のラベルを入力する。 |
Y軸 | Y軸のラベルを入力する。 |
目盛線を表示 | どの軸に目盛線を表示するかを選択する。 |
凡例を表示 | 凡例(はんれい)を表示する場所を選択する。 |
LibreOffice Calc でグラフを編集するには2つのモードを使い分ける。
シート上のグラフの領域をシングルクリックするとグラフオブジェクトが選択されてグラフオブジェクトのモードになる。
このモードで、マウスを使ってグラフオブジェクトの移動やサイズ変更ができる。
また、右クリックしてコンテキストメニューから以下のことができる。
項目 | 説明 |
---|---|
位置とサイズ | グラフオブジェクトの位置やサイズを数値で指定したり、回転などができる。 |
画像(イメージ)としてエクスポート | グラフオブジェクトを画像として保存する。 |
編集 | グラフ編集モードに入る。 |
ツールバーのボタンを使っても同じようなことができる。
シート上のグラフの領域をダブルクリックするか、グラフオブジェクトのモードで右クリックのコンテキストメニューから [編集]
を選択するとグラフ編集モードになる。
グラフ編集モードでは、グラフオブジェクト上の様々な部品を選択して設定変更ができる。 選択した部品はツールバーに表示される。 部品を選択した状態でツールバーや右クリックしてコンテキストメニューから設定変更を行う。
項目 | 説明 |
---|---|
グラフの種類 | グラフの種類を変更する。 |
データ範囲 | データ範囲や系列を変更する。 |
項目 | 説明 |
---|---|
位置とサイズ | グラフオブジェクト内でのグラフの位置やサイズを変更する。 |
タイトルを挿入 | タイトル、サブタイトル、X軸とY軸のラベルを挿入する。 |
軸を挿入/削除 | X軸やY軸を挿入/削除する。 |
凡例を挿入/削除 | 凡例を挿入/削除する。 |
「グラフ」の位置やサイズ変更はマウスのドラッグでもできる。
項目 | 説明 |
---|---|
軸の書式 | 目盛の最小値・最大値・間隔、軸の位置、目盛の書式などを変更する。 |
軸を挿入/削除 | 軸(の数字)を挿入/削除する。 |
主目盛線の書式 | 主目盛線の書式を変更する。 |
副目盛線の書式 | 副目盛線の書式を変更する。 |
主目盛線を挿入/削除 | 主目盛線を挿入/削除する。 |
副目盛線を挿入/削除 | 副目盛線を挿入/削除する。 |
項目 | 説明 |
---|---|
データ系列の書式 | プロットする点のアイコン・色、点を結ぶ線などを変更する。 |
データラベルを挿入/削除 | プロットする点のデータラベル(数値)を挿入/削除する。 |
平均値線の挿入/削除 | 平均の位置を表す線を挿入/削除する。 |
X誤差範囲を挿入/削除 | X軸方向のエラーバーを挿入/削除する。 |
Y誤差範囲を挿入/削除 | Y軸方向のエラーバーを挿入/削除する。 |
近似曲線を挿入/削除 | データに最適な近似曲線(直線)を挿入/削除する。 |
性別のような異なる属性が混ざっているようなデータは、属性ごとに分けて層別のデータにして分析する必要がある。
以下は データセット1 の身長と体重の散布図である。
このデータを男女別に分けて散布図を描くと以下のようになる。
男女で関係性が異なるデータを混ぜてしまうと、散らばりが大きくなり関係性も変わってしまうことが分かる。
データの比較をする際には、単にグループに分けてグラフにするだけではなく、条件をそろえた比較が必要である。
例えば、以下のヒストグラムは データセット2 の授業外学修時間のヒストグラムである。 左は経営コース2年、右は政策コース3年である。
この二つのヒストグラムを比較する意味はあるだろうか。
[挿入]
→[グラフ]
を選択して「グラフウィザード」のダイアログを表示する。[散布図]
を選択する。[点のみ]
を選択する(デフォルトで選択されている)。[次へ]
をクリックする。はじめにデータ範囲を指定したので、ここでは何もしなくてよい。
[次へ]
をクリックする。データ範囲から自動的に X 値と Y 値が設定される。
[名前]
をクリックし、「名前の範囲」に「全体」と入力する。[次へ]
をクリックする。[X軸]
と [Y軸]
にチェックを入れる。[完了]
をクリックする。これで散布図が描かれる。
[線]
タブをクリックする。[OK]
をクリックする。X 軸や Y 軸の表示範囲はデフォルトだと自動的に決められるが、縮めたり広げたりしたい場合は手動で設定する。
[目盛]
タブをクリックする。[自動]
のチェックを外し、値を「30」にする。[自動]
のチェックを外し、値を「90」にする。[完了]
をクリックする。地図で見る統計(jSTAT MAP) で現在住んでいる場所、もしくは出身地付近のヒートマップを描きなさい。
[ログインしないでGISを始める]
をクリックする。[統計地図作成]
→[統計グラフ作成]
をクリックして「統計グラフ作成」のダイアログを開く。[国勢調査]
を選択する。[2020年]
を選択する。[5次メッシュ(250mメッシュ)]
を選択する。[人口および世帯]
を選択する。[人口総数]
にチェックを入れて、[指標選択]
をクリックする。[次へ]
をクリックする。[メッシュ]
を選択する。[集計開始]
をクリックする。
作成したヒートマップを保存するには、[統計地図作成]
→[レポート作成]
→[シンプルレポート]
で「シンプルレポート」のダイアログを表示し、[2020年 国勢調査 5次メッシュ(250mメッシュ)人口及び世帯]
を選択して [Excelレポート作成]
をクリックしてダウンロードする。
保存した Excel ファイル(拡張子 .xlsx)を提出すること。 Excel ファイルは LibreOffice で開くことができる。