Le Chat Blanc: [R] koRpus (TreeTagger の Rラッパー) で原形と品詞情報を得る

TreeTagger を R で利用するためのラッパーである koRpus を使って、英語テキストの原形と品詞情報を得ます。なお、Mac (Yosemite) を使っています。

[1] TreeTagger と koRpus をダウンロード・インストールします:

[2] R を起動し、まずは下準備:

library(koRpus)
set.kRp.env(TT.cmd="/Users/[ユーザー名]/Applications/TreeTagger/cmd/tteng", lang="en")

library(koRpus) は koRpusパッケージの呼び出し。
set.kRp.env(TT.cmd="パス", lang="en") でtree-tagger-english-utf8 (上ではttengを利用) の場所と、分析する言語 ("en"glish) を指定。

TT.cmdの指定でファイルパスを入力するのが面倒であれば:

set.kRp.env(TT.cmd=file.choose(), lang="en")

とすると簡単。ファインダー (?) が立ち上がるので、cmdの下にあるtree-tagger-englishを選択。これで準備が完了です。

[3] 実際に分析をするには、分析したいファイルがある作業ディレクトリに移動してから:

taggedText(treetag("分析したいファイル名.txt"))

でO.K.です。データフレームで返ってきます。

なお、treetag("ファイル名.txt") だと、文字数や語数や行数や他の情報も返してくれます。taggedText() で、そこから原形や品詞情報などだけを選んで表示してくれます。

参考

Le Chat Blanc