内容へ移動
講義(山本裕樹)
ユーザ用ツール
ログイン
サイト用ツール
検索
ツール
文書の表示
バックリンク
最近の変更
メディアマネージャー
サイトマップ
ログイン
>
最近の変更
メディアマネージャー
サイトマップ
トレース:
data_literacy_past:2023:lecture9
この文書は読取専用です。文書のソースを閲覧することは可能ですが、変更はできません。もし変更したい場合は管理者に連絡してください。
====== 【データリテラシー】第9回 分割表とクロス集計 ====== <hiddenSwitch Microsoft Excel ←→ LibreOffice Calc> ===== 多変量データ ===== ある集団に対して2種類以上の観測を行って得られた多変数のデータを__**多変量データ(多次元データ)**__という。 ここでは特に 2変数のデータである__**2変量データ(2次元データ)**__を考える。 2変量データを見やすくするには分割表と散布図の二通りの方法がある。 {{ data2d.png?nolink |2変量データ}} ===== 分割表 ===== 2変量データの片方の変数のとりうる値を縦方向(列方向)の項目、もう片方の変数のとりうる値を横方向(行方向)の項目にして、縦と横の項目が交差(クロス)するマスに対応する度数を数えて入れた表を__**分割表**__という。 変数は質的変数だと作りやすいが、必ずしも質的変数である必要はない。 量的変数であっても離散型の場合はそのまま使ってもよいし、連続型の場合は度数分布表のように階級ごとに分けてもよい。 分割表の一番左の項目のラベルの列を__**表側**__、一番上の項目のラベルの行を__**表頭**__という。 表側の項目数が $s$ 個、表頭の項目数が $t$ 個の場合、$s\times t$ 分割表という。 「合計」の欄は項目数には含めない。 列や行の合計は__**周辺度数**__という。 列の周辺度数の合計と行の周辺度数の合計は総数に一致する。 === 3×6 分割表の例 === 以下は [[dataset#データセット2]] から求めた学年とコース別の学生数の分割表である。 {{ table1.png?nolink |学年とコース別の学生数}} ===== クロス集計表 ===== 分割表において度数ではなく、合計、平均、標準偏差などを集計した表を__**クロス集計表**__という。 ただし、分割表とクロス集計表はあまり区別されていないようである。 === 3×6 クロス集計表の例 === 以下は [[dataset#データセット2]] から求めた学年とコース別の学生一人当たりの授業外学修時間の平均のクロス集計表である。 {{ table2.png?nolink |学生一人当たりの授業外学修時間の平均のクロス集計表}} 周辺度数にあたるところは「合計」ではなく「平均」であることに注意してほしい。 例えば、「経営」コースの「平均」は 98.3 時間となっているが、これは元のデータにおいて「経営」コース全体の平均を求めたものになっている。 2年生、3年生、4年生のそれぞれの平均の平均 (99.7+95.6+98.7)/3=98.0 時間ではない。 この違いは各学年の人数が異なることから生じる。 ===== ピボットテーブル ===== 分割表やクロス集計表を作るために表計算ソフトには__**ピボットテーブル**__という便利な機能がある。 元となる生データは次のように一番上の行に変数のラベルがあり、その下の列方向に各変数の観測値が並んでいるものとする。 このデータからピボットテーブルを使って分割表やクロス集計表を作成する。 3変量の生データ ^ ^ A ^ B ^ C ^ ^ 1 | 変数1 | 変数2 | 変数3 | ^ 2 | $x_{1}$ | $y_{1}$ | $z_{1}$ | ^ 3 | $x_{2}$ | $y_{2}$ | $z_{2}$ | ^ 4 | $x_{3}$ | $y_{3}$ | $z_{3}$ | ^ ⋮ | ⋮ | ⋮ | ⋮ | ---- ==== ピボットテーブルの作成 ==== <hidden initialState="visible" LibreOffice Calc> ** ① ピボットテーブルの挿入 ** - 分割表で数えたいデータの範囲を**<fc #ff0000>変数のラベルを含めて</fc>**選択する。 - メニューバーの ''**[挿入]**''%%→%%''**[ピボットテーブル]**'' を選択すると「ソースの選択」のダイアログが開く。 - ''**[現在の選択範囲]**'' を選択して ''**[OK]**'' ボタンをクリックすると「ピボットテーブルのレイアウト」のダイアログが開く。 ** ② ピボットテーブルのレイアウト設定 ** - 「利用可能なフィールド」から分割表の表側の項目にしたい変数を「行フィールド」にドラッグ&ドロップする。 - 「利用可能なフィールド」から分割表の表頭の項目にしたい変数を「列フィールド」にドラッグ&ドロップする。 - 「利用可能なフィールド」から分割表の項目が交差するマスで数えたい変数を「データフィールド」にドラッグ&ドロップする。 - 「データフィールド」にドラッグ&ドロップした変数は自動的に「合計」になるので、その変数名をダブルクリックする。 - 「データフィールド」のダイアログが開いたら、計算方式を選択して ''**[OK]**'' ボタンをクリックする。 - 「ピボットテーブルのレイアウト」の ''**[OK]**'' ボタンをクリックすると新しいシートにピボットテーブルが挿入される。 {{ calc_pivot1.png?nolink |ピボットテーブルのレイアウト}} * 「列フィールド」「行フィールド」「データフィールド」「ページフィールド」に入れた変数は「利用可能なフィールド」にドラッグ&ドロップで戻すことで削除できる。 * ピボットテーブルの表頭と表側の項目は並べ替え(ソート)ができる。 * 「ページフィールド」に変数を入れてフィルタリングを行うことができる。 </hidden> \\ <hidden Microsoft Excel> * ピボットテーブルの表頭と表側の項目は手動で任意の入れ替えができる。 - 入れ替えたい項目のセルを選択する。 - 選択したセルの枠をドラッグ&ドロップで入れ替えたい場所に移動する。 * 「フィールドのグループ化(グループフィールド)」を使うと階級ごとに分けて度数分布表が作れる。 </hidden> \\ ---- ==== ピボットテーブルの編集 ==== 一度作ったピボットテーブルは編集して項目を変更することができる。 ピボットテーブル上で右クリックしてコンテキストメニューから ''**[プロパティ]**'' を選択すると「ピボットテーブルのレイアウト」のダイアログが開くので、ここで項目を変更する。 ---- ==== データの更新 ==== ピボットテーブルの元のデータの値を更新してもピボットテーブルに自動的には反映されないため、手動で更新させる必要がある。 ピボットテーブルで右クリックしてコンテキストメニューから ''**[更新]**'' を選択するとピボットテーブルが更新される。 ===== 演習:分割表の作成 ===== * 使用するデータセット:[[dataset#データセット2]] 学年とコース別の学生数の分割表を作成する。 <hidden initialState="visible" LibreOffice Calc> ** ① ピボットテーブルの挿入 ** - 列 A から列 J までを選択する。 - メニューバーの ''**[挿入]**''%%→%%''**[ピボットテーブル]**'' を選択し、''**[OK]**'' ボタンをクリックすると「ピボットテーブルのレイアウト」のダイアログが開く。 ** ② ピボットテーブルのレイアウト設定 ** - 「利用可能なフィールド」から ''**[学年]**'' を「行フィールド」にドラッグ&ドロップする。 - 「利用可能なフィールド」から ''**[コース]**'' を「列フィールド」にドラッグ&ドロップする。 - 「利用可能なフィールド」から ''**[学年]**'' を「データフィールド」にドラッグ&ドロップする(この場合は ''**[コース]**'' でもよい)。 - 「データフィールド」の ''**[合計- 学年]**'' をダブルクリックする。 - 「データフィールド」のダイアログが開いたら、計算方式の ''**[総数]**'' を選択して ''**[OK]**'' ボタンをクリックする。 - 「ピボットテーブルのレイアウト」の ''**[OK]**'' ボタンをクリックすると新しいシートにピボットテーブルが挿入される。 {{ calc_pivot2.png?nolink |ピボットテーブルの設定}} 作成したピボットテーブルは空いている場所にコピー&ペーストして、分割表の形式を整える。 </hidden> \\ <hidden Microsoft Excel> </hidden> \\ ===== 演習:平均のクロス集計表の作成 ===== 前の演習のピボットテーブルを編集して授業外学修時間の平均のクロス集計表を作成する。 <hidden initialState="visible" LibreOffice Calc> - 作成したピボットテーブル上で右クリックしてコンテキストメニューから ''**[プロパティ]**'' を選択すると、「ピボットテーブルのレイアウト」のダイアログが開く。 - 「データフィールド」の ''**[総数 - 学年]**'' を「利用可能なフィールド」にドラッグ&ドロップで戻して削除する。 - 「利用可能なフィールド」から ''**[授業外学修時間[h]]**'' を「データフィールド」にドラッグ&ドロップする。 - - 「データフィールド」の ''**[合計- 授業外学修時間[h]]**'' をダブルクリックする。 - 「データフィールド」のダイアログが開いたら、計算方式の ''**[平均値]**'' を選択して ''**[OK]**'' ボタンをクリックする。 - 「ピボットテーブルのレイアウト」の ''**[OK]**'' ボタンをクリックする。 {{ calc_pivot3.png?nolink |ピボットテーブルの設定}} 作成したピボットテーブルでは、周辺度数に当たるところは「合計」と表示されるが、実際は「合計」ではなく「平均」であることに注意する。 作成したピボットテーブルは空いている場所にコピー&ペーストして、分割表の形式を整える。 </hidden> \\ <hidden Microsoft Excel> </hidden> \\ 「行フィールド」「列フィールド」「データフィールド」にその他の項目を追加するとどうなるだろうか。 色々試してみてほしい。 ===== 課題 ===== [[dataset#データセット1]] において、年齢と性別で人数を数えた分割表を作りなさい。 表頭を「年齢」、表側を「性別」とする。 また、同じデータセットで年齢と性別で身長の平均を求めたクロス集計表を作りなさい。 作成したファイルは ODF 表計算ドキュメント(拡張子 .ods)で提出すること。
data_literacy_past/2023/lecture9.txt
· 最終更新: 2024/09/09 05:30 by
you
ページ用ツール
文書の表示
バックリンク
文書の先頭へ