【R】Rでテキストマイニング(第2回 ワードクラウドを作ってみる)


最強統計処理ツールRを用いて、テキストマイニングするシリーズの第2回目です。
(※編集中だけど、一旦公開します。なぜ??)


今回は、ちょっと前に流行ったこんな図を作ってみます。
f:id:demacassette:20170912225405p:plain

準備すること

ワードクラウド自体がかなり普及してきたので、先駆者の知恵を拝借します。


ま、何事も準備は必要です。今回、必要な準備は大きく三つ。

  1. パッケージのインストール
  2. ワードクラウドにする題材(文字列の羅列)
  3. ワードクラウドをつくるコード

それぞれ、詳しく見ていきましょう。

パッケージのインストール

Rでは、パッケージのインストールが結構大事です。きちんとインストールできてないと、言うこと聞いてくれません。

良くあるのは、ワードクラウド用のパッケージはインストールしたけど、うまくいかない!というパターンです。

これは、ワードクラウド用のパッケージの中に、さらに実はまだインストールできてないパッケージが含まれていることが主な原因です。

エラーメッセージを良く見ると、「このパッケージは読み込めてません」みたいな表現がありますので、足りてないパッケージを探してインストールしましょう。

パッケージのインストール方法は二つ

これまた長くなりますが、パッケージのインストール方法もちょっと注意が必要です。

通常、CRANサイトというものにアクセスして、必要なパッケージを選んでインストールできます。

ただ、ネット環境が悪かったりして、うまく繋がらない場合は、zipファイルをダウンロードして、ローカルからインストールという手があります。

この方法は、かなり確実なので、最近多用している次第です。


ワードクラウドにする題材

こらは、分析対象が決まっている場合は、悩む必要はないかと思います。要はテキストマイニングしたい文字列ファイルを作っておけば良いです。

ただ今回は題材として何が差し支えないのか、面白くなるのかを考えてみました。

そこで、閃いたのがこちら。

日本国憲法

これなら、誰も損しないので。
(ほんとはアーティストの歌詞とかでやりたいけど、いろいろややこしそうなので)

http://law.e-gov.go.jp/htmldata/S21/S21KE000.html

ワードクラウドをつくるコード

これは、先の先駆者サイト様から拝借してます。完全に。



ワードクラウドやってみる

とりあえず、この類の処理は先駆者の方々がすでにやられています。
その知恵をありがたく拝借し、まずはどんなものが表現できるか見てみます。

実際に、を題材にして作ってみたのがこちら。



なんとなく、わかる気がします。

参考図書

やはりテキストマイニング関連の書籍はかなりでてます。手元に教科書置きながらやりたい派の人も見かけるので、リンク貼っておきます。

正直、私は「なぜウェブ上に情報転がっているのに、本見ながら手打ちするの?」と思ってしまいますが。。。

Rによるやさしいテキストマイニング

Rによるやさしいテキストマイニング

テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法

テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法

Rで学ぶ日本語テキストマイニング

Rで学ぶ日本語テキストマイニング