以前のリビジョンの文書です

Rでテキストマイニング

MeCabとRMeCabのインストール

MeCab

http://sourceforge.net/projects/mecab/files/ からmecab-0.98.exe（バージョンは2009/10/15現在）をダウンロードし，インストール（僕はC:\MeCabに入れた）．

RMeCab

http://groups.google.co.jp/group/rmecab/files からRMeCab_0.84.zip（バージョンは2009/10/15現在）をダウンロードし，Rのライブラリに追加（Rコンソール＞パッケージ＞ローカルにあるzip～）．

コンソールに

library(RMeCab)

と入力し，RMeCabパッケージを使おうとすると，libmecab.dllが見つからなかったため～というエラーが出るので，OKを押し，C:\MeCab\binにあるlibmecab.dllをC:\R\R-2.9.2\library\RMeCab\libsにコピーする．

以上でRからMeCabを使う準備は完了

UniDic

MeCabには最初からipa辞書が入っているが，人工知能学会誌にunidicの記事があり，気になったのでさっそく使ってみる．

http://www.tokuteicorpus.jp/dist/からMeCab版バイナリ辞書（Shift_JIS）をダウンロード・解凍する．なお，ダウンロードにはユーザ登録が必要となる．

中身をC:\MeCab\dic\unidic（長谷川環境の場合）にコピー

使用方法は，

MeCab実行時に-dオプションを使って使用する辞書を指定する．

mecab -d “C:\MeCab\dic\unidic” 入力ファイル

一々指定するのが面倒だったり，RMeCabから使う場合には，

MeCabの設定ファイル（C:\MeCab\etcにあるmecabrc）を以下のように書き換える．

dicdir =  $(rcpath)\..\dic\ipadic

を

dicdir =  $(rcpath)\..\dic\unidic

形態素解析

試しに青空文庫のテキストファイル（有島武郎の生まれいずる悩み）を解析してみる．

> setwd("C:/eclipse/workspace/RMeCabTest")
> library(RMeCab)
> 
> res <- RMeCabFreq("umareizuru_nayami.txt")
file = umareizuru_nayami.txt 
mode(res) #結果はリスト
length = 4871 
> [1] "list"
> summary(res)
     Term              Info1              Info2                Freq         
 Length:4871        Length:4871        Length:4871        Min.   :   1.000  
 Class :character   Class :character   Class :character   1st Qu.:   1.000  
 Mode  :character   Mode  :character   Mode  :character   Median :   1.000  
                                                          Mean   :   7.375  
                                                          3rd Qu.:   3.000  
                                                          Max.   :1627.000  
> res[1000:1010,] #1000から1010までを抜き出してみる
         Term Info1 Info2 Freq
1000 気に入る  動詞  自立    2
1001     祈る  動詞  自立    5
1002   起きる  動詞  自立    2
1003   起こす  動詞  自立   10
1004   起こる  動詞  自立   15
1005     輝く  動詞  自立    2
1006   戯れる  動詞  自立    2
1007     疑う  動詞  自立    7
1008   逆らう  動詞  自立    1
1009     休む  動詞  自立    1
1010   休める  動詞  自立    1

リスト内の要素に個別にアクセスするには，

res$Term #形態素
res$Info1 #品詞
res$Info2 #品詞細分類
res$Freq #頻度

**以前のリビジョンの文書です**

目次