【R】Rでテキストマイニング（第2回ワードクラウドを作ってみる）

最強統計処理ツールRを用いて、テキストマイニングするシリーズの第2回目です。
（※編集中だけど、一旦公開します。なぜ？？）

今回は、ちょっと前に流行ったこんな図を作ってみます。
f:id:demacassette:20170912225405p:plain

ワードクラウド自体がかなり普及してきたので、先駆者の知恵を拝借します。

ま、何事も準備は必要です。今回、必要な準備は大きく三つ。

それぞれ、詳しく見ていきましょう。

Rでは、パッケージのインストールが結構大事です。きちんとインストールできてないと、言うこと聞いてくれません。

良くあるのは、ワードクラウド用のパッケージはインストールしたけど、うまくいかない！というパターンです。

これは、ワードクラウド用のパッケージの中に、さらに実はまだインストールできてないパッケージが含まれていることが主な原因です。

エラーメッセージを良く見ると、「このパッケージは読み込めてません」みたいな表現がありますので、足りてないパッケージを探してインストールしましょう。

これまた長くなりますが、パッケージのインストール方法もちょっと注意が必要です。

通常、CRANサイトというものにアクセスして、必要なパッケージを選んでインストールできます。

ただ、ネット環境が悪かったりして、うまく繋がらない場合は、zipファイルをダウンロードして、ローカルからインストールという手があります。

この方法は、かなり確実なので、最近多用している次第です。

こらは、分析対象が決まっている場合は、悩む必要はないかと思います。要はテキストマイニングしたい文字列ファイルを作っておけば良いです。

ただ今回は題材として何が差し支えないのか、面白くなるのかを考えてみました。

そこで、閃いたのがこちら。

これなら、誰も損しないので。
（ほんとはアーティストの歌詞とかでやりたいけど、いろいろややこしそうなので）

これは、先の先駆者サイト様から拝借してます。完全に。

とりあえず、この類の処理は先駆者の方々がすでにやられています。
その知恵をありがたく拝借し、まずはどんなものが表現できるか見てみます。

実際に、を題材にして作ってみたのがこちら。

なんとなく、わかる気がします。

やはりテキストマイニング関連の書籍はかなりでてます。手元に教科書置きながらやりたい派の人も見かけるので、リンク貼っておきます。

正直、私は「なぜウェブ上に情報転がっているのに、本見ながら手打ちするの？」と思ってしまいますが。。。