インターネットからダウンロードできる CSV ファイルは、文字コードが Shift_JIS のものがほとんどである。 これは代表的な表計算ソフト Microsoft Excel で扱う CSV ファイルの基本の文字コードが Shift_JIS だからである。
Ruby で扱うファイルの文字コードは UTF-8 が基本のため、Shift_JIS の CSV ファイルは UTF-8 に変換する必要がある。
CSV ファイルの文字コードを変換するには、nkf や emacs で行う方法(文字コードの変換)と LibreOffice を使う方法がある。
政府統計の総合窓口(e-Stat) などから CSV 形式でデータをダウンロードすると、数値がテキストと認識されるため計算ができないことがある。 このようなときは数値化を行う必要がある。
LibreOffice Calc では様々な文字コードの CSV ファイルを扱うことができる。
[ファイルを開く]
か、メニューバーの [ファイル]
→[開く]
で CSV ファイルを選択する。[Unicode(UTF-8)]
もしくは [日本語(Shift-JIS)]
で文字化けしない方を選択する。[ファイル]
→[名前を付けて保存]
もしくは [コピーを保存]
を選択する。[保存]
ボタンをクリックする。[Unicode(UTF-8)]
もしくは [日本語(Shift-JIS)]
を選択する。[セルの書式設定]
を選択してダイアログを表示する。[数]
にして [OK]
をクリックする。[編集]
→[検索と置換]
を選択してダイアログを表示する。^[0-9]
」と入力する。&
」と入力する。[正規表現]
にチェックを入れる。[すべて置換]
をクリックする。Microsoft Excel では基本的に Shift_JIS の CSV ファイルしか扱えなかったが、最近は UTF-8 も扱えるようになってきている。
ただし、オンライン版では CSV ファイルで保存する機能はない。
[データ]
をクリックする。[テキストまたはCSVから]
をクリックする。[読み込み]
をクリックする。
[ファイル]
をクリックする。[名前を付けて保存]
をクリックする。最近の Excel では特に数値化する必要がない。