tips:csv
表計算ソフトにおけるCSVファイルの取扱い
文字コード
インターネットからダウンロードできる CSV ファイルは、文字コードが Shift_JIS のものがほとんどである。 これは代表的な表計算ソフト Microsoft Excel で扱う CSV ファイルの基本の文字コードが Shift_JIS だからである。
Ruby で扱うファイルの文字コードは UTF-8 が基本のため、Shift_JIS の CSV ファイルは UTF-8 に変換する必要がある。
CSV ファイルの文字コードを変換するには、nkf や emacs で行う方法(文字コードの変換)と LibreOffice を使う方法がある。
テキストの数値化
政府統計の総合窓口(e-Stat) などから CSV 形式でデータをダウンロードすると、数値がテキストと認識されるため計算ができないことがある。 このようなときは数値化を行う必要がある。
LibreOffice Calc
LibreOffice Calc では様々な文字コードの CSV ファイルを扱うことができる。
文字コードを指定した読み込み
- 起動時の
[ファイルを開く]
か、メニューバーの[ファイル]
→[開く]
で CSV ファイルを選択する。 - 「テキストのインポート」のダイアログにおいて、「文字エンコーディング」で文字コードを選択する。文字コードは通常
[Unicode(UTF-8)]
もしくは[日本語(Shift-JIS)]
で文字化けしない方を選択する。
文字コードを指定した保存
- メニューバーの
[ファイル]
→[名前を付けて保存]
もしくは[コピーを保存]
を選択する。 - ファイル名を付けて、形式で「テキストCSV(.csv)」を選んで
[保存]
ボタンをクリックする。 - 「文字エンコーディング」で文字コード
[Unicode(UTF-8)]
もしくは[日本語(Shift-JIS)]
を選択する。
数値化
- 数値化したいテキストのセルを選択する。
- 右クリックでコンテキストメニューから
[セルの書式設定]
を選択してダイアログを表示する。 - 「数値」のタブをクリックし、「カテゴリー」を
[数]
にして[OK]
をクリックする。 - メニューバーの
[編集]
→[検索と置換]
を選択してダイアログを表示する。 - 「検索」に「
^[0-9]
」と入力する。 - 「置換」に 「
&
」と入力する。 - 「他のオプション」の
[正規表現]
にチェックを入れる。 [すべて置換]
をクリックする。
Microsoft Excel
Microsoft Excel では基本的に Shift_JIS の CSV ファイルしか扱えなかったが、最近は UTF-8 も扱えるようになってきている。
ただし、オンライン版では CSV ファイルで保存する機能はない。
文字コードを指定した読み込み
- Excel のメニューの
[データ]
をクリックする。 - 「データの取得と変換」の
[テキストまたはCSVから]
をクリックする。 - 読み込みたい CSV ファイルを選択する。
- 左上の「元のファイル」のところで文字コードを選択する。
[読み込み]
をクリックする。
文字コードを指定した保存
- メニューの
[ファイル]
をクリックする。 [名前を付けて保存]
をクリックする。- 「ファイルの種類」で選択して保存する。
- 「CSV(コンマ区切り)(*.csv)」を選んで保存すると文字コードは Shift_JIS になる。
- 「CSV UTF-8(コンマ区切り)(*.csv)」を選んで保存すると文字コードは UTF-8 になる(Excel 2016 以降)。
数値化
最近の Excel では特に数値化する必要がない。
tips/csv.txt · 最終更新: 2024/09/09 06:04 by you