差分

この文書の現在のバージョンと選択したバージョンの差分を表示します。

--- memo:r:rtextmining [2010/05/21 06:48]
hasegawa 作成
+++ memo:r:rtextmining [2016/07/17 04:22]
@@ ライン 1: / ライン 1: @@
-{{tag>R toolbox memo textmining}}
-====== Rでテキストマイニング ======
-===== MeCabとRMeCabのインストール =====
-==== MeCab ====
-http://sourceforge.net/projects/mecab/files/
-からmecab-0.98.exe（バージョンは2009/10/15現在）をダウンロードし，インストール（僕はC:\MeCabに入れた）．
-==== RMeCab ====
-http://groups.google.co.jp/group/rmecab/files
-からRMeCab_0.84.zip（バージョンは2009/10/15現在）をダウンロードし，Rのライブラリに追加（Rコンソール＞パッケージ＞ローカルにあるzip～）．
-コンソールに
-  library(RMeCab)
-と入力し，RMeCabパッケージを使おうとすると，**libmecab.dllが見つからなかったため～**というエラーが出るので，OKを押し，**C:\MeCab\bin**にある**libmecab.dll**を**C:\R\R-2.9.2\library\RMeCab\libs**にコピーする．
-以上でRからMeCabを使う準備は完了
-==== UniDic ====
-MeCabには最初からipa辞書が入っているが，人工知能学会誌にunidicの記事があり，気になったのでさっそく使ってみる．
-http://www.tokuteicorpus.jp/dist/からMeCab版バイナリ辞書（Shift_JIS）をダウンロード・解凍する．
-なお，ダウンロードにはユーザ登録が必要となる．
-中身を**C:\MeCab\dic\unidic**（長谷川環境の場合）にコピー
-使用方法は，
-  * MeCab実行時に-dオプションを使って使用する辞書を指定する．
-  mecab -d "C:\MeCab\dic\unidic" 入力ファイル
-一々指定するのが面倒だったり，RMeCabから使う場合には，
-  * MeCabの設定ファイル（**C:\MeCab\etc**にある**mecabrc**）を以下のように書き換える．
-  dicdir =  $(rcpath)\..\dic\ipadic
-を
-  dicdir =  $(rcpath)\..\dic\unidic
-===== 形態素解析 =====
-試しに青空文庫のテキストファイル（有島武郎の生まれいずる悩み）を解析してみる．
-  > setwd("C:/eclipse/workspace/RMeCabTest")
-  > library(RMeCab)
-  >
-  > res <- RMeCabFreq("umareizuru_nayami.txt")
-  file = umareizuru_nayami.txt
-  mode(res) #結果はリスト
-  length = 4871
-  > [1] "list"
-  > summary(res)
-       Term              Info1              Info2                Freq
-   Length:4871        Length:4871        Length:4871        Min.   :   1.000
-   Class :character   Class :character   Class :character   1st Qu.:   1.000
-   Mode  :character   Mode  :character   Mode  :character   Median :   1.000
-                                                            Mean   :   7.375
-rd Qu.:   3.000
-                                                            Max.   :1627.000
-  > res[1000:1010,] #1000から1010までを抜き出してみる
-           Term Info1 Info2 Freq
-気に入る  動詞  自立    2
-     祈る  動詞  自立    5
-   起きる  動詞  自立    2
-   起こす  動詞  自立   10
-   起こる  動詞  自立   15
-     輝く  動詞  自立    2
-   戯れる  動詞  自立    2
-     疑う  動詞  自立    7
-   逆らう  動詞  自立    1
-     休む  動詞  自立    1
-   休める  動詞  自立    1
-リスト内の要素に個別にアクセスするには，
-  res$Term #形態素
-  res$Info1 #品詞
-  res$Info2 #品詞細分類
-  res$Freq #頻度