この文章の最新バージョンは草案です。Diffこのバージョン(2010/05/21 06:48)は草案です。
承認件数:0/1

**以前のリビジョンの文書です**

Rでテキストマイニング

MeCabとRMeCabのインストール

MeCab

http://sourceforge.net/projects/mecab/files/ からmecab-0.98.exe(バージョンは2009/10/15現在)をダウンロードし,インストール(僕はC:\MeCabに入れた).

RMeCab

http://groups.google.co.jp/group/rmecab/files からRMeCab_0.84.zip(バージョンは2009/10/15現在)をダウンロードし,Rのライブラリに追加(Rコンソール>パッケージ>ローカルにあるzip~).

コンソールに

library(RMeCab)

と入力し,RMeCabパッケージを使おうとすると,libmecab.dllが見つからなかったため~というエラーが出るので,OKを押し,C:\MeCab\binにあるlibmecab.dllC:\R\R-2.9.2\library\RMeCab\libsにコピーする.

以上でRからMeCabを使う準備は完了

UniDic

MeCabには最初からipa辞書が入っているが,人工知能学会誌にunidicの記事があり,気になったのでさっそく使ってみる.

http://www.tokuteicorpus.jp/dist/からMeCab版バイナリ辞書(Shift_JIS)をダウンロード・解凍する. なお,ダウンロードにはユーザ登録が必要となる.

中身をC:\MeCab\dic\unidic(長谷川環境の場合)にコピー

使用方法は,

  • MeCab実行時に-dオプションを使って使用する辞書を指定する.

mecab -d “C:\MeCab\dic\unidic” 入力ファイル

一々指定するのが面倒だったり,RMeCabから使う場合には,

  • MeCabの設定ファイル(C:\MeCab\etcにあるmecabrc)を以下のように書き換える.
dicdir =  $(rcpath)\..\dic\ipadic

dicdir =  $(rcpath)\..\dic\unidic

形態素解析

試しに青空文庫のテキストファイル(有島武郎の生まれいずる悩み)を解析してみる.

> setwd("C:/eclipse/workspace/RMeCabTest")
> library(RMeCab)
> 
> res <- RMeCabFreq("umareizuru_nayami.txt")
file = umareizuru_nayami.txt 
mode(res) #結果はリスト
length = 4871 
> [1] "list"
> summary(res)
     Term              Info1              Info2                Freq         
 Length:4871        Length:4871        Length:4871        Min.   :   1.000  
 Class :character   Class :character   Class :character   1st Qu.:   1.000  
 Mode  :character   Mode  :character   Mode  :character   Median :   1.000  
                                                          Mean   :   7.375  
                                                          3rd Qu.:   3.000  
                                                          Max.   :1627.000  
> res[1000:1010,] #1000から1010までを抜き出してみる
         Term Info1 Info2 Freq
1000 気に入る  動詞  自立    2
1001     祈る  動詞  自立    5
1002   起きる  動詞  自立    2
1003   起こす  動詞  自立   10
1004   起こる  動詞  自立   15
1005     輝く  動詞  自立    2
1006   戯れる  動詞  自立    2
1007     疑う  動詞  自立    7
1008   逆らう  動詞  自立    1
1009     休む  動詞  自立    1
1010   休める  動詞  自立    1

リスト内の要素に個別にアクセスするには,

res$Term #形態素
res$Info1 #品詞
res$Info2 #品詞細分類
res$Freq #頻度
memo/r/rtextmining.1274424527.txt.gz · 最終更新: 2016/07/17 04:22 (外部編集)
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0

- Rental Orbit Space -