インターネットからダウンロードできる CSV ファイルは、文字コードが Shift_JIS のものがほとんどである。 これは代表的な表計算ソフト Microsoft Excel で扱う CSV ファイルの基本の文字コードが Shift_JIS だからである。
Ruby で扱うファイルの文字コードは UTF-8 が基本のため、Shift_JIS の CSV ファイルは UTF-8 に変換する必要がある。
CSV ファイルの文字コードを変換するには、nkf や emacs で行う方法(文字コードの変換)と LibreOffice を使う方法がある。
政府統計の総合窓口(e-Stat) などから CSV 形式でデータをダウンロードすると、数値がテキストと認識されるため計算ができないことがある。 このようなときは数値化を行う必要がある。
LibreOffice Calc では様々な文字コードの CSV ファイルを扱うことができる。
[ファイルを開く] か、メニューバーの [ファイル]→[開く] で CSV ファイルを選択する。[Unicode(UTF-8)] もしくは [日本語(Shift-JIS)] で文字化けしない方を選択する。[ファイル]→[名前を付けて保存] もしくは [コピーを保存] を選択する。[保存] ボタンをクリックする。[Unicode(UTF-8)] もしくは [日本語(Shift-JIS)] を選択する。[セルの書式設定]を選択してダイアログを表示する。[数] にして [OK] をクリックする。[編集]→[検索と置換]を選択してダイアログを表示する。^[0-9]」と入力する。&」と入力する。[正規表現] にチェックを入れる。[すべて置換] をクリックする。Microsoft Excel では基本的に Shift_JIS の CSV ファイルしか扱えなかったが、最近は UTF-8 も扱えるようになってきている。
ただし、オンライン版では CSV ファイルで保存する機能はない。
[データ] をクリックする。[テキストまたはCSVから] をクリックする。[読み込み] をクリックする。
[ファイル] をクリックする。[名前を付けて保存] をクリックする。最近の Excel では特に数値化する必要がない。