【R】Rでテキストマイニング(第2回 ワードクラウドを作ってみる)
最強統計処理ツールRを用いて、テキストマイニングするシリーズの第2回目です。
(※編集中だけど、一旦公開します。なぜ??)
今回は、ちょっと前に流行ったこんな図を作ってみます。
準備すること
ワードクラウド自体がかなり普及してきたので、先駆者の知恵を拝借します。
ま、何事も準備は必要です。今回、必要な準備は大きく三つ。
それぞれ、詳しく見ていきましょう。
パッケージのインストール
Rでは、パッケージのインストールが結構大事です。きちんとインストールできてないと、言うこと聞いてくれません。
良くあるのは、ワードクラウド用のパッケージはインストールしたけど、うまくいかない!というパターンです。
これは、ワードクラウド用のパッケージの中に、さらに実はまだインストールできてないパッケージが含まれていることが主な原因です。
エラーメッセージを良く見ると、「このパッケージは読み込めてません」みたいな表現がありますので、足りてないパッケージを探してインストールしましょう。
パッケージのインストール方法は二つ
これまた長くなりますが、パッケージのインストール方法もちょっと注意が必要です。
通常、CRANサイトというものにアクセスして、必要なパッケージを選んでインストールできます。
ただ、ネット環境が悪かったりして、うまく繋がらない場合は、zipファイルをダウンロードして、ローカルからインストールという手があります。
この方法は、かなり確実なので、最近多用している次第です。
ワードクラウドにする題材
こらは、分析対象が決まっている場合は、悩む必要はないかと思います。要はテキストマイニングしたい文字列ファイルを作っておけば良いです。
ただ今回は題材として何が差し支えないのか、面白くなるのかを考えてみました。
そこで、閃いたのがこちら。
これなら、誰も損しないので。
(ほんとはアーティストの歌詞とかでやりたいけど、いろいろややこしそうなので)
ワードクラウドをつくるコード
これは、先の先駆者サイト様から拝借してます。完全に。
ワードクラウドやってみる
とりあえず、この類の処理は先駆者の方々がすでにやられています。
その知恵をありがたく拝借し、まずはどんなものが表現できるか見てみます。
実際に、を題材にして作ってみたのがこちら。
なんとなく、わかる気がします。
参考図書
やはりテキストマイニング関連の書籍はかなりでてます。手元に教科書置きながらやりたい派の人も見かけるので、リンク貼っておきます。
正直、私は「なぜウェブ上に情報転がっているのに、本見ながら手打ちするの?」と思ってしまいますが。。。
- 作者: 小林雄一郎
- 出版社/メーカー: オーム社
- 発売日: 2017/09/21
- メディア: 単行本
- この商品を含むブログを見る
- 作者: 小林雄一郎
- 出版社/メーカー: オーム社
- 発売日: 2017/02/17
- メディア: 単行本
- この商品を含むブログを見る
- 作者: 菰田文男,那須川哲哉
- 出版社/メーカー: 中央経済社
- 発売日: 2014/05/01
- メディア: 単行本
- この商品を含むブログ (1件) を見る
テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法
- 作者: 那須川哲哉
- 出版社/メーカー: 東京電機大学出版局
- 発売日: 2006/11/01
- メディア: 単行本
- 購入: 4人 クリック: 146回
- この商品を含むブログ (11件) を見る
- 作者: 石田基広,小林雄一郎
- 出版社/メーカー: ひつじ書房
- 発売日: 2013/10/30
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (2件) を見る