いつかギャフンと言わせたい

平凡な会社員が、いつか周りをギャフンと言わせるための自分記録ノンジャンル記録。

【R】Shift-JISエンコードのcsvファイルを文字化けせずに読み込む

以前苦戦していたRでのデータ読み込み問題に終止符が打たれました!
政府統計などのオープンデータをダウンロードしてそのままRで読み込みたいと思ってやってみると、「不正なマルチバイト文字があって読み込めないよー!」みたいなエラーが出る問題です。

f:id:demacassette:20160119235205p:plain
これが出るとやる気が半減。。。

demacassette2.hateblo.jp
当時の解決策は、読み込むデータファイルのエンコードを「 UTF-8」に変換して保存し直すと、Rでは普通に読み込める、というものでした。ですが、これだと読み込まれた内容は文字化けしてしまいますし、ダウンロードしたデータを一個一個エンコード変換し保存しないといけません。これでは意味がない。そこで、再度手間のかからない方法を探してみました。すると。。。


出た!
qiita.com

結論的にはこれです。

data1<-read.csv(file("csvデータ/001-2.csv",encoding='cp932'))

あとは、好きに料理しちゃってくださいー。簡単だけど、なかなかたどり着けなかったコードですね。


やっぱり書籍でも勉強すべきかな。以下参考。

Rによるデータサイエンス-データ解析の基礎から最新手法まで

Rによるデータサイエンス-データ解析の基礎から最新手法まで

Rデータ自由自在

Rデータ自由自在

現場ですぐ使える時系列データ分析 ~データサイエンティストのための基礎知識~

現場ですぐ使える時系列データ分析 ~データサイエンティストのための基礎知識~

データサイエンティスト養成読本 R活用編 【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus)

データサイエンティスト養成読本 R活用編 【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus)