内容へ移動
[[
✎ memo:r:rtextmining
]]
HaseWiki
トレース:
文書の表示
最近の変更
サイトマップ
ログイン
この文書は読取専用です。文書のソースを閲覧することは可能ですが、変更はできません。もし変更したい場合は管理者に連絡してください。
{{tag>R toolbox memo textmining}} ====== Rでテキストマイニング ====== ===== MeCabとRMeCabのインストール ===== ==== MeCab ==== http://sourceforge.net/projects/mecab/files/ からmecab-0.98.exe(バージョンは2009/10/15現在)をダウンロードし,インストール(僕はC:\MeCabに入れた). ==== RMeCab ==== http://groups.google.co.jp/group/rmecab/files からRMeCab_0.84.zip(バージョンは2009/10/15現在)をダウンロードし,Rのライブラリに追加(Rコンソール>パッケージ>ローカルにあるzip~). コンソールに library(RMeCab) と入力し,RMeCabパッケージを使おうとすると,**libmecab.dllが見つからなかったため~**というエラーが出るので,OKを押し,**C:\MeCab\bin**にある**libmecab.dll**を**C:\R\R-2.9.2\library\RMeCab\libs**にコピーする. 以上でRからMeCabを使う準備は完了 ==== UniDic ==== MeCabには最初からipa辞書が入っているが,人工知能学会誌にunidicの記事があり,気になったのでさっそく使ってみる. http://www.tokuteicorpus.jp/dist/からMeCab版バイナリ辞書(Shift_JIS)をダウンロード・解凍する. なお,ダウンロードにはユーザ登録が必要となる. 中身を**C:\MeCab\dic\unidic**(長谷川環境の場合)にコピー 使用方法は, * MeCab実行時に-dオプションを使って使用する辞書を指定する. mecab -d "C:\MeCab\dic\unidic" 入力ファイル 一々指定するのが面倒だったり,RMeCabから使う場合には, * MeCabの設定ファイル(**C:\MeCab\etc**にある**mecabrc**)を以下のように書き換える. dicdir = $(rcpath)\..\dic\ipadic を dicdir = $(rcpath)\..\dic\unidic ===== 形態素解析 ===== 試しに青空文庫のテキストファイル(有島武郎の生まれいずる悩み)を解析してみる. > setwd("C:/eclipse/workspace/RMeCabTest") > library(RMeCab) > > res <- RMeCabFreq("umareizuru_nayami.txt") file = umareizuru_nayami.txt mode(res) #結果はリスト length = 4871 > [1] "list" > summary(res) Term Info1 Info2 Freq Length:4871 Length:4871 Length:4871 Min. : 1.000 Class :character Class :character Class :character 1st Qu.: 1.000 Mode :character Mode :character Mode :character Median : 1.000 Mean : 7.375 3rd Qu.: 3.000 Max. :1627.000 > res[1000:1010,] #1000から1010までを抜き出してみる Term Info1 Info2 Freq 1000 気に入る 動詞 自立 2 1001 祈る 動詞 自立 5 1002 起きる 動詞 自立 2 1003 起こす 動詞 自立 10 1004 起こる 動詞 自立 15 1005 輝く 動詞 自立 2 1006 戯れる 動詞 自立 2 1007 疑う 動詞 自立 7 1008 逆らう 動詞 自立 1 1009 休む 動詞 自立 1 1010 休める 動詞 自立 1 リスト内の要素に個別にアクセスするには, res$Term #形態素 res$Info1 #品詞 res$Info2 #品詞細分類 res$Freq #頻度
文書の表示
以前のリビジョン
メディアマネージャー
文書の先頭へ
-
Rental Orbit Space
-