差分

この文書の現在のバージョンと選択したバージョンの差分を表示します。

この比較画面にリンクする

memo:r:rtextmining [2010/05/21 06:48]
hasegawa 作成
memo:r:rtextmining [2016/07/17 04:22]
ライン 1: ライン 1:
-{{tag>R toolbox memo textmining}} 
-====== Rでテキストマイニング ====== 
  
-===== MeCabとRMeCabのインストール ===== 
-==== MeCab ==== 
-http://​sourceforge.net/​projects/​mecab/​files/​ 
-からmecab-0.98.exe(バージョンは2009/​10/​15現在)をダウンロードし,インストール(僕はC:​\MeCabに入れた). 
- 
-==== RMeCab ==== 
-http://​groups.google.co.jp/​group/​rmecab/​files 
-からRMeCab_0.84.zip(バージョンは2009/​10/​15現在)をダウンロードし,Rのライブラリに追加(Rコンソール>パッケージ>ローカルにあるzip~). 
- 
-コンソールに 
-  library(RMeCab) 
-と入力し,RMeCabパッケージを使おうとすると,**libmecab.dllが見つからなかったため~**というエラーが出るので,OKを押し,**C:​\MeCab\bin**にある**libmecab.dll**を**C:​\R\R-2.9.2\library\RMeCab\libs**にコピーする. 
- 
-以上でRからMeCabを使う準備は完了 
- 
-==== UniDic ==== 
-MeCabには最初からipa辞書が入っているが,人工知能学会誌にunidicの記事があり,気になったのでさっそく使ってみる. 
- 
-http://​www.tokuteicorpus.jp/​dist/​からMeCab版バイナリ辞書(Shift_JIS)をダウンロード・解凍する. 
-なお,ダウンロードにはユーザ登録が必要となる. 
- 
-中身を**C:​\MeCab\dic\unidic**(長谷川環境の場合)にコピー 
- 
-使用方法は, 
-  * MeCab実行時に-dオプションを使って使用する辞書を指定する. 
-  mecab -d "​C:​\MeCab\dic\unidic"​ 入力ファイル 
- 
-一々指定するのが面倒だったり,RMeCabから使う場合には, 
-  * MeCabの設定ファイル(**C:​\MeCab\etc**にある**mecabrc**)を以下のように書き換える. 
- 
-  dicdir =  $(rcpath)\..\dic\ipadic 
- 
- 
-  dicdir =  $(rcpath)\..\dic\unidic 
- 
-===== 形態素解析 ===== 
-試しに青空文庫のテキストファイル(有島武郎の生まれいずる悩み)を解析してみる. 
-  > setwd("​C:/​eclipse/​workspace/​RMeCabTest"​) 
-  > library(RMeCab) 
-  >  
-  > res <- RMeCabFreq("​umareizuru_nayami.txt"​) 
-  file = umareizuru_nayami.txt ​ 
-  mode(res) #​結果はリスト 
-  length = 4871  
-  > [1] "​list"​ 
-  > summary(res) 
-       ​Term ​             Info1              Info2                Freq          
-   ​Length:​4871 ​       Length:​4871 ​       Length:​4871 ​       Min.   : ​  ​1.000  ​ 
-   Class :​character ​  Class :​character ​  Class :​character ​  1st Qu.:   ​1.000  ​ 
-   ​Mode ​ :​character ​  ​Mode ​ :​character ​  ​Mode ​ :​character ​  ​Median :   ​1.000  ​ 
-                                                            Mean   : ​  ​7.375  ​ 
-                                                            3rd Qu.:   ​3.000  ​ 
-                                                            Max.   :​1627.000  ​ 
-  > res[1000:​1010,​] #​1000から1010までを抜き出してみる 
-           Term Info1 Info2 Freq 
-  1000 気に入る ​ 動詞 ​ 自立 ​   2 
-  1001     ​祈る ​ 動詞 ​ 自立 ​   5 
-  1002   ​起きる ​ 動詞 ​ 自立 ​   2 
-  1003   ​起こす ​ 動詞 ​ 自立 ​  10 
-  1004   ​起こる ​ 動詞 ​ 自立 ​  15 
-  1005     ​輝く ​ 動詞 ​ 自立 ​   2 
-  1006   ​戯れる ​ 動詞 ​ 自立 ​   2 
-  1007     ​疑う ​ 動詞 ​ 自立 ​   7 
-  1008   ​逆らう ​ 動詞 ​ 自立 ​   1 
-  1009     ​休む ​ 動詞 ​ 自立 ​   1 
-  1010   ​休める ​ 動詞 ​ 自立 ​   1 
- 
-リスト内の要素に個別にアクセスするには, 
-  res$Term #形態素 
-  res$Info1 #品詞 
-  res$Info2 #​品詞細分類 
-  res$Freq #頻度 
memo/r/rtextmining.txt · 最終更新: 2016/07/17 04:22 (外部編集)
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0

- Rental Orbit Space -