TreeTagger を R で利用するためのラッパーである koRpus を使って、英語テキストの原形と品詞情報を得ます。なお、Mac (Yosemite) を使っています。
[1] TreeTagger と koRpus をダウンロード・インストールします:
[2] R を起動し、まずは下準備:
library(koRpus)
set.kRp.env(TT.cmd="/Users/[ユーザー名]/Applications/TreeTagger/cmd/tteng", lang="en")
- library(koRpus) は koRpusパッケージの呼び出し。
- set.kRp.env(TT.cmd="パス", lang="en") でtree-tagger-english-utf8 (上ではttengを利用) の場所と、分析する言語 ("en"glish) を指定。
set.kRp.env(TT.cmd=file.choose(), lang="en")とすると簡単。ファインダー (?) が立ち上がるので、cmdの下にあるtree-tagger-englishを選択。これで準備が完了です。
[3] 実際に分析をするには、分析したいファイルがある作業ディレクトリに移動してから:
taggedText(treetag("分析したいファイル名.txt"))でO.K.です。データフレームで返ってきます。
- $token がそのままの形、
- $lemma が原形、
- $wclass が品詞、 です。
- $tag の読み方は詳しく説明されています [pdf]。
参考
0 件のコメント:
コメントを投稿