2015/01/11

[R] koRpus (TreeTagger の Rラッパー) で原形と品詞情報を得る

TreeTaggerR で利用するためのラッパーである koRpus を使って、英語テキストの原形と品詞情報を得ます。なお、Mac (Yosemite) を使っています。

[1] TreeTagger と koRpus をダウンロード・インストールします:

[2] R を起動し、まずは下準備:

library(koRpus)
set.kRp.env(TT.cmd="/Users/[ユーザー名]/Applications/TreeTagger/cmd/tteng", lang="en")
  • library(koRpus) は koRpusパッケージの呼び出し。
  • set.kRp.env(TT.cmd="パス", lang="en") でtree-tagger-english-utf8 (上ではttengを利用) の場所と、分析する言語 ("en"glish) を指定。
TT.cmdの指定でファイルパスを入力するのが面倒であれば:
set.kRp.env(TT.cmd=file.choose(), lang="en")
とすると簡単。ファインダー (?) が立ち上がるので、cmdの下にあるtree-tagger-englishを選択。これで準備が完了です。

[3] 実際に分析をするには、分析したいファイルがある作業ディレクトリに移動してから:

taggedText(treetag("分析したいファイル名.txt"))
でO.K.です。データフレームで返ってきます。
  • $token がそのままの形、
  • $lemma が原形、
  • $wclass が品詞、
  • です。
  • $tag の読み方は詳しく説明されています [pdf]。
なお、treetag("ファイル名.txt") だと、文字数や語数や行数や他の情報も返してくれます。taggedText() で、そこから原形や品詞情報などだけを選んで表示してくれます。


参考
  • Package ‘koRpus’ [pdf]
  • Using the koRpus Package for Text Analysis [pdf]

No comments:

Post a Comment