いつかギャフンと言わせたい

平凡な企業研究員が、いつか周りをギャフンと言わせるための野心的かもしれないゆるい記録

Rの基礎

R

これは、右という意味ではない。スペシャル統計解析用プログラミング言語「R」のことである。このRというソフトは、一般的にはほぼ知られていないのではないだろうか。しかしながら、自然科学系の学者、統計学者、経済学者など、大量のデータを扱い、統計解析や数値解析を行う専門家にとっては、メジャーな存在なようである。

経済物理学の高安教授などが使用(論文等の中に随所にRを用いた図表が見られる)

f:id:demacassette:20150108222451j:plain

The R Project for Statistical Computing

では、このRは何なのか。エクセルとどう違うのか、どうやって使うのかを私なりに考察してみる。ちなみに、私はこのRを用いて修士論文のデータ処理やシミュレーション計算を実行したが、まるでシロウトに近い程度の知識や小技しか持ち合わせていないことをここでお断りしておく。

 

 ■□エクセルよりも多くのデータを扱える 

 □プログラミングコードがわかりやすい

 □■可視化まで一気にドン

 

 ■□□エクセルよりも多くのデータを扱える 

 これは統計解析ソフトとしては当然の機能と言えるかもしれない。エクセルは、最大256列、6万行程度しか1シートに貼付けられない。ま、普通のデータ処理ならこの程度でも問題ない。(最新のエクセル(拡張子がxlsxなど)では、どうやら扱えるデータ数はかなり増えたようだ)しかし、大量のアンケート調査データや自然科学系の毎分、毎秒のデータなどはかなりのデータ数を要するため、1シート上に収まらないデータ処理の方法はとても煩雑になる。煩雑になるという事は、ミスが置きやすくデータ処理の制度に関わってくるため、できれば避けたいものである。

 

 □■□プログラミングコードがわかりやすい

 プログラミングと言えば、c,c++,Fortranなどが有名であろうか。私も大学時代はFortranを使わされていた。今となっては、Fortranを使っている人など古代人ではないのか?と思う人もいるかもしれないが、古くから使われているアルゴリズムFortranコードによって語り継がれていることがあるという。そうなると、先人たちの知恵をいったん理解するためには、Fortranなどの言語から理解を進める事が重要となるだろう。

 では、Rはいつ頃誕生したのか。Fortranが1954年(IBMの人が開発)に誕生したのに対し、Rは1996年(オークランド大学の人が開発)に誕生したらしい。ということは、Rが誕生してまだ20年も経っていないのだ。wikipediaによれば、RはS言語という高級言語を元にしており、変数を予約なしで使え、ベクトル(リスト)型のデータ型で扱うのが特徴らしい。これは、実際に使ってみると良さがわかる。変数を予約なしでいきなりぶち込めるのはとても楽だ。また、コンパイラはなく、実行=コンパイル込みなので、エラーもその都度わかるのだ。

 

 □□■可視化まで一気にドン

 これが私にとって最も重要なことだ。「え!?エクセルもグラフとかそのままできるじゃん?」という声が聞こえる。確かにそうだ。その通り過ぎて言い返す言葉はない。しかしながら、Rを用いてグラフ化(可視化)を実行したら感動を覚える。なぜだろう。それは可視化用コードを実行した後、パッとグラフが出るのだ。さらに、なんとなく専門家っぽいテイストのグラフを見せてくる。これが何とも言えない。実際のグラフ(インフォグラフィックス)は後々出てくるのでお楽しみに。

 

と、ここまで抽象的な話をしてきたが、今後は実例を用いてコードやインフォグラフィックスを紹介していきたい。というより、自分の備忘録的に記録していくのだ。