【R】Shift-JISエンコードのcsvファイルを文字化けせずに読み込む


以前苦戦していたRでのデータ読み込み問題に終止符が打たれました!
政府統計などのオープンデータをダウンロードしてそのままRで読み込みたいと思ってやってみると、「不正なマルチバイト文字があって読み込めないよー!」みたいなエラーが出る問題です。

f:id:demacassette:20160119235205p:plain
これが出るとやる気が半減。。。

demacassette2.hateblo.jp
当時の解決策は、読み込むデータファイルのエンコードを「 UTF-8」に変換して保存し直すと、Rでは普通に読み込める、というものでした。ですが、これだと読み込まれた内容は文字化けしてしまいますし、ダウンロードしたデータを一個一個エンコード変換し保存しないといけません。これでは意味がない。そこで、再度手間のかからない方法を探してみました。すると。。。




出た!
qiita.com

結論的にはこれです。

data1<-read.csv(file("csvデータ/001-2.csv",encoding='cp932'))

あとは、好きに料理しちゃってくださいー。簡単だけど、なかなかたどり着けなかったコードですね。


やっぱり書籍でも勉強すべきかな。以下参考。

Rによるデータサイエンス データ解析の基礎から最新手法まで

Rによるデータサイエンス データ解析の基礎から最新手法まで

Rデータ自由自在

Rデータ自由自在

現場ですぐ使える時系列データ分析 ~データサイエンティストのための基礎知識~

現場ですぐ使える時系列データ分析 ~データサイエンティストのための基礎知識~

データサイエンティスト養成読本 R活用編 【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus)

データサイエンティスト養成読本 R活用編 【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus)