[ブログ] 部分的に更新しました (TreeTagger関連)

以前の記事に、ほんのりと加筆しました。TreeTagger関連です。

[日記] ちょっと贅沢

ちょっと贅沢をして、Bowmoreの 17年 を飲んでみた。ちょっと贅沢な味がする。

Bowmore 17 years

[日記] GLACIEL のアイス・ケーキを食べた

神宮前の GLACIEL (グラッシェル)アイス・ケーキ (entremets glace, アントルメグラッセ) を食べました。

チョコレートのエリソン(herisson)君

アイスと生地の組み合わせが面白い食感。ほんのりと溶かすのがポイント。お持ち帰りは、無料ドライアイスを2時間分つけてくださいました。

お店で食べられる生グラスも大変濃厚で、おいしかったです。ちょっと隠れ家風なお店で、とっても素敵。

[R] koRpus (TreeTagger の Rラッパー) で原形と品詞情報を得る

TreeTaggerR で利用するためのラッパーである koRpus を使って、英語テキストの原形と品詞情報を得ます。なお、Mac (Yosemite) を使っています。

[1] TreeTagger と koRpus をダウンロード・インストールします:

[2] R を起動し、まずは下準備:

library(koRpus)
set.kRp.env(TT.cmd="/Users/[ユーザー名]/Applications/TreeTagger/cmd/tteng", lang="en")
  • library(koRpus) は koRpusパッケージの呼び出し。
  • set.kRp.env(TT.cmd="パス", lang="en") でtree-tagger-english-utf8 (上ではttengを利用) の場所と、分析する言語 ("en"glish) を指定。
TT.cmdの指定でファイルパスを入力するのが面倒であれば:
set.kRp.env(TT.cmd=file.choose(), lang="en")
とすると簡単。ファインダー (?) が立ち上がるので、cmdの下にあるtree-tagger-englishを選択。これで準備が完了です。

[3] 実際に分析をするには、分析したいファイルがある作業ディレクトリに移動してから:

taggedText(treetag("分析したいファイル名.txt"))
でO.K.です。データフレームで返ってきます。
  • $token がそのままの形、
  • $lemma が原形、
  • $wclass が品詞、
  • です。
  • $tag の読み方は詳しく説明されています [pdf]。
なお、treetag("ファイル名.txt") だと、文字数や語数や行数や他の情報も返してくれます。taggedText() で、そこから原形や品詞情報などだけを選んで表示してくれます。


参考
  • Package ‘koRpus’ [pdf]
  • Using the koRpus Package for Text Analysis [pdf]

[日記] あけましておめでとうございます

少々おそくなりましたが、あけましておめでとうございます。

Turning traffic MUST stop stop for pedestrians

昨年から始めたこのブログは、このエントリーを含み40の記事を公開できました。初めのエントリー ([Mac] PRAM リセット) が示すように、当初は自分自身のみを想定読者としていました。が、予想以上に多くの方がこのブログにアクセスされているのを知り、インターネットの力を目の当たりにし、徐々に自分以外のインターネット利用者の方も意識しつつ記事を書くようになりました。(一番多くのアクセスは、[R] ggplo2 でヒストグラム描出入門)

今後は、モバイルデバイスへの対応を含み、わかりやすい記事を目指していきたいです。

本年も、よろしくお願いいたします。

[Car] クイック板金(2回目)

車のバンパーを擦ってしまった。。。ということで、 イエローハットのクイック板金 にお願いしていました。別の店舗に持って行っての作業ということで数日かかりましたが、無事に車が帰ってきました。結果、とても綺麗に直してもらい、非常に満足しています。板金をしたと言われても、素人目にはわか...