ラベル R の投稿を表示しています。すべての投稿を表示

[R] R の hist() でのヒストグラムに、各階級の度数を書き入れる #2

前回の記事では、hist() を使って描いたヒストグラムに、各階級の度数を書き入れました。

ただ、毎回スクリプトを書いているのは面倒なので(?)、上記機能を組み入れたりして hist() を拡張した myhist() を作りました。

基本的には自分用なので、平均点を表す線を引いたりするのも入れてあります。もしもお役に立ちそうでしたらご自由にお使いください。

[R] R の hist() でのヒストグラムに、各階級の度数を書き入れる

やりたいこと：

R で hist() を使って、ヒストグラムを描き、
加えて、各階級の度数を表示する。

つまり、次のような感じ：

なお、データは Rに入っている iris を利用する。

1. やり方

irisの1列目のデータを利用する。今回は、わかりやすさのために、変数d に iris[,1] を代入しておく。つまり、変数d に分析したいデータ (ベクトル) が入っているものとする。ではズバリ、次のように書く：

2. 仕組み

変数infoの中には、次の通り、ヒストグラムを描くための情報が入っている (info で出てくる)：

このうち、今回関連のある情報は：

$counts が度数

$mids が階級値 (階級の真ん中の値)

ですので、

x座標 = info$mids
y座標 = 1 (この値は任意)

の位置に info$counts を書き入れる (text()) 、ということ。

なお、y座標はお好みで。下にいくつか例をあげておく。

y=info$counts-1

y=info$counts+0.5

y=info$counts/2

hist() を拡張した myhist()はコチラ。

[R] abc並べ替えスクリプト

与えられた英文を、各単語に分けてabc順に並べ替えスラッシュで区切る関数を、Rで書いたことがあった。例えば、

this is an example sentence

と入力すると、

an / example / is / sentence / this

と返してくれる。1年くらい前に書いたものがこちら：

計9行。forが1つ。自分で使う分には一切問題がないし、頑張って書いたのでずっと使っていたのだが、ごちゃごちゃしている。書き直してみる。

計6行。forはないし、見た目もスッキリ。

以前はウンウン唸りながら1~2時間くらいかけて書いたものが、今では3分くらいで書けるように。私はR (を始めプログラミング) の専門的な訓練を受けたことはないが、本やインターネットのおかげで、自分にとって十分役にたつスクリプトが書けるようになってきた。このエントリーも誰かの役に立てば嬉しい。

なお、使い方は：

上のスクリプトをコピーandペースト、そしてエンターキーを押す。
narabe("") と入力し (全て半角文字)、ダブルクオーテーションマークの間に変換したい文字列を入力する。エンターキーを押す。
変換された文字列が返ってくる。

1. Copy and Paste, and the Press Enter

2. narabe("")

3. Voilà!

[R] 単語の文字をバラバラ (かつ、元の形がなんとなくわかるよう) に並び替えるウェブ・アプリ

概要

"StrAlt" の"Tihs is an" を選択すると、単語の文字をバラバラ (かつ、元の形がなんとなくわかるよう) に並び替えます:
https://hgnj.shinyapps.io/StrAlt/

使い方

"Choose a Type:" の下のボタンから、"Tihs is an" を選びます。
その下のボックスに変換したい文を入力 (or コピぺ) します。
自動的に変換された文字列が "Sentence(s) modified:" の下に表示されます。

StrAlt

留意点

無料
入力された文字列のデータを取得しません
画面が黒くなる or うまく動かない
免責
他のボタンの機能

こちら

その他
Shiny を利用した他のウェブ・アプリもぜひお試しください:

ABC Order

Numbered ABC Order

Katakana ABC Order

c() ize

[R] .JPGファイルを別のフォルダーにコピーする

デジタル一眼レフでは、JPGデータだけでなくRAWデータも記録できます。そのデータをパソコンに移すと、.JPG と .CR2 (こちらがRAWデータ) の2種類の拡張子を持つデータが保存されます。

.JPGのデータのみを別のフォルダ (Dropboxに作成したフォルダ) にコピーするスクリプトです:

2行目 setwd(): データを保存したフォルダーを作業ディレクトリに指定。
4行目 list.files(pattern="\\.JPG"): .JPGの拡張子を持つファイルの一覧を獲得し、filesに入れる。
6行目 paste("保存先フォルダ", i, sep=""): 保存先フォルダと保存名称を決め、nameに入れる。
7行目 file.copy(i, name): コピー。

.JPGで十分であればそのまま、不十分であればRAWデータを現像して上書き、という手順が便利です。

[R] 英文をabc順に並び替えさらにア.イ.ウ. ... と振るウェブ・アプリ

英文を単語に分解し、アルファベット順に並べ替え、さらに、並べ替えた後にア.イ.ウ. ... と記号をふるウェブ・アプリです。

たとえば、this is an example sentence と入力すると、
自動で、ア. an イ. example ウ. is エ. sentence オ. this と変換します。

Katakana ABC Order
(https://hgnj.shinyapps.io/ABCOrderJ/)

使い方

もとの英文を、"Text Input" の下のボックスに入力します (例: this is an example sentence)。
並べ替えられた英文が、"Text Arranged and Numbered" の下に表示されます (例: ア. an イ. example ウ. is エ. sentence オ. this)。
表示された英文を、WordやPagesのファイルにコピペします。
必要に応じて、整形 (タブやスペースを入れる) してください。

上手な使い方

文頭を小文字にする
文末のピリオドやクエスチョン・マークなどを入力しない

留意点

無料
入力された文字列のデータを取得しません
免責

その他
Shiny を利用した他のウェブ・アプリもぜひお試しください:

ABC Order

Numbered ABC Order

c() ize
StrAlt

[R] install.packages() するパッケージのメモ (私家版)

Rは、パッケージをダウンロード・インストールして関数を追加していくことができる。

Rをインストールしてから、install.packages() でダウンロードするパッケージのメモ。:

irtoys
ggplot2
koRpus
psych
RCurl
shiny

気がつき次第、追加していく。

[R] 文字列を加工するウェブ・アプリ

概要

"StrAlt" は文字列を加工するウェブ・アプリです:
https://hgnj.shinyapps.io/StrAlt/

使い方

"Choose a Type:" の下のボタンから、どれか一つを選択します。

CAPITAL は全て大文字に;
lowercase は全て小文字に;
This Is An は各語の先頭文字だけ大文字に;
No aeiou は母音をアンダーバーに;
No aeiouy は母音+y をアンダーバーに;
T___ i_ a_ は各語の先頭文字以外をアンダーバーに変換します。

その下のボックスに変換したい文を入力 (or コピぺ) します。
自動的に変換された文字列が "Sentence(s) modified:" の下に表示されます。

StrAlt

留意点

無料
入力された文字列のデータを取得しません
免責

その他
Shiny を利用した他のウェブ・アプリもぜひお試しください:

ABC Order

Numbered ABC Order

c() ize

[R] koRpus (TreeTagger の Rラッパー) で原形と品詞情報を得る

TreeTagger を R で利用するためのラッパーである koRpus を使って、英語テキストの原形と品詞情報を得ます。なお、Mac (Yosemite) を使っています。

[1] TreeTagger と koRpus をダウンロード・インストールします:

[2] R を起動し、まずは下準備:

library(koRpus)
set.kRp.env(TT.cmd="/Users/[ユーザー名]/Applications/TreeTagger/cmd/tteng", lang="en")

library(koRpus) は koRpusパッケージの呼び出し。
set.kRp.env(TT.cmd="パス", lang="en") でtree-tagger-english-utf8 (上ではttengを利用) の場所と、分析する言語 ("en"glish) を指定。

TT.cmdの指定でファイルパスを入力するのが面倒であれば:

set.kRp.env(TT.cmd=file.choose(), lang="en")

とすると簡単。ファインダー (?) が立ち上がるので、cmdの下にあるtree-tagger-englishを選択。これで準備が完了です。

[3] 実際に分析をするには、分析したいファイルがある作業ディレクトリに移動してから:

taggedText(treetag("分析したいファイル名.txt"))

でO.K.です。データフレームで返ってきます。

$token がそのままの形、
$lemma が原形、
$wclass が品詞、
$tag の読み方は詳しく説明されています [pdf]。

なお、treetag("ファイル名.txt") だと、文字数や語数や行数や他の情報も返してくれます。taggedText() で、そこから原形や品詞情報などだけを選んで表示してくれます。

参考

Package ‘koRpus’ [pdf]
Using the koRpus Package for Text Analysis [pdf]

[R] ggplo2 でヒストグラム描出入門

ggplot2 を使ってヒストグラムを描く。基本的な使い方のメモ。「3. まとめ」に一覧をリストアップしています。

1. 準備

分析する練習データは:

data <- c( 0, 14, 30, 30, 46, 48, 49, 50, 52, 53, 54, 55, 56, 60, 63, 64, 65, 66, 68, 68, 72, 73, 74, 76, 78, 81, 81, 84, 86, 93, 93, 100 )

を利用する (乱数をつかって作成した)。データフレームに変換する (列名は score とする):

data <- data.frame(score = data)

2. 作図

さて、ggplot2を読み込んでから、ggplot()を利用し、変数 m に入れる:

library(ggplot2)
m <- ggplot(data, aes(x = score))

変数dataに入っているデータフレームの、列名score のデータを利用する、と考えると分かりやすい。わざわざ aes(x = data$score) とせずに aes(x = score) だけで良い様子。

では、geom_histogram()で作図する:

m + geom_histogram()

Fig 1. m + geom_histogram()

警告がでる( "stat_bin: binwidth defaulted to range/30. Use 'binwidth = x' to adjust this." )
階級の幅がデフォルトでは range/30 となっている。binwidth=x を利用して階級の幅を10にしてみよう:

m + geom_histogram(binwidth=10)

Fig 2. m + geom_histogram(binwidth=10)

さて、全体的に真っ黒で分かりづらい。枠の色を黒、中身の色を透明にしてみる:

m + geom_histogram(binwidth=10, colour="black", fill=NA)

Fig 3. m + geom_histogram(binwidth=10, colour="black", fill=NA)

枠をdarkgreen、中身をskyblueにしてもキレイ:

m + geom_histogram(binwidth= 10, colour="darkgreen", fill="skyblue")

Fig 4. m + geom_histogram(binwidth= 10, colour="darkgreen", fill="skyblue")

枠線の指定はイギリス式にcolour でもアメリカ式にcolorでも、どちらでも通用する。

さて、ここで0 + 10n の値がどちらの階級に含まれているか、確認しておこう。上の図を見ると:

0点より左側にビンが無く、100よりも右側にビンがある

のだ。ということから、binwidth=10 とした時、0~9, 10~19, 20~29,...,90~99, 100~109 という階級になっていることが分かる。
したがって、次のように、binの幅を明示的に指定しても、Fig.4 と同じプロットができる:

m + geom_histogram(breaks=seq(-0.5, 109.5, by=10), colour="darkgreen", fill="skyblue")

Fig 5. m + geom_histogram(breaks=seq(-0.5, 109.5, by=10), colour="darkgreen", fill="skyblue")

さて、灰色の背景色を白色にしたい場合は theme_bw() を利用する。theme_bw() の bw は blackとwhiteの略の様:

m + geom_histogram(binwidth=10, colour="black", fill=NA) + theme_bw()

Fig 6. m + geom_histogram(binwidth=10, colour="black", fill=NA) + theme_bw()

X軸, Y軸, タイトルをつけるには labs() を利用する:

m + geom_histogram(breaks=seq(-0.5, 109.5, by=10), colour="darkgreen", fill="skyblue") + theme_bw() + labs(y="Frequency", x="Score", title="Histogram of DATA")

Fig 7. m + geom_histogram(breaks=seq(-0.5, 109.5, by=10), colour="darkgreen", fill="skyblue") + theme_bw() + labs(y="Frequency", x="Score", title="Histogram of DATA")

軸の幅 (定義域や値域) を指定するには xlim( , ) や ylim( , ) を利用する。Y軸を10まで伸ばしてみる:

m + geom_histogram(breaks=seq(-0.5, 109.5, by=10), colour="darkgreen", fill="skyblue") + ylim(0,10)

Fig 8. m + geom_histogram(breaks=seq(-0.5, 109.5, by=10), colour="darkgreen", fill="skyblue") + ylim(0,10)

図を横にするには coord_flip() を利用:

m + geom_histogram(binwidth=10, colour="darkgreen", fill="white") + coord_flip()

Fig 9. m + geom_histogram(binwidth=10, colour="darkgreen", fill="white") + coord_flip()

3. まとめ

データの指定: ggplot(変数名, aes(x = 列名))

ヒストグラム描出: + geom_histogram()

幅を指定: + geom_histogram(binwidth = 数値)

枠線の色: + geom_histogram(colour = "色")

ビンの色: + geom_histogram(fill = "色")

背景色を透明: + geom_histogram() + theme_bw()

軸やタイトル: + geom_histogram() + labs(x = "x軸名", y = "y軸名", title = "タイトル")

定義域の指定: + geom_histogram() + xlim( , )

値域の指定: + geom_histogram() + ylim( , )

図を横に倒す: + geom_histogram() + coord_flip()

4. 参考

ggplot2 (本家ページ)

ドキュメンテーション (コマンド一覧)

[R] ggplot2 入門

[R] ggplot2 入門

調べ物をしていたら、ggplot2 を利用した図を何度か目にした。非常に美しい。ぜひ使えるようになりたい。以下、リンク：

ggplot2 (本家ページ)

Help topics (ドキュメンテーション)

ggplot2: An implementation of the grammar of graphics [pdf]
ggplot2 できれいなグラフ (by @dichika; slideshare)
一粒で3回おいしいggplot2 (by syou6162)
Rのグラフィック作成パッケージ“ggplot2”について (Colorless Green Ideas)

上記リンク先の説明は、どれも非常に分かりやすい。図であろうと言語であろうと、情報を分かりやすく伝達するための配慮を感じる。

[R] R でファイルパスを取得

R でファイルパスを取得するためのメモ：

R における正規表現 (RjpWiki)
R：list.filesによるファイルパス取得あれこれ。 (Qiita)

list.files()を利用する。lapply()と組み合わせると便利。

関連エントリー

[R] Excel データをコピペするとベクトル (<-c()) に変換するウェブ・アプリ

概要

エクセル・データをコピペすると、ベクトル (x <- c(1,2,3) ) に変換するウェブ・アプリです。

http://hgnj.shinyapps.io/Cize/

背景
エクセル (Excel) でデータを管理し、分析の際に R を利用することがあります。そのために、エクセルのデータをCSVデータに変換し、Rで読み込む必要がありますが、その作業が面倒です。また慣れるまではとても難しく感じます (R を使い始めたばかりの頃、その作業が出来ず、手打ちでデータを読み込ませていました)。よし分析するぞ、と意気込んだものの、データの読み込みが出来ずがっかりする、という経験をした人は少なくないと思います。そこで、エクセルデータを単にコピー＆ペーストするだけで、R で扱えるデータに変換してくれるウェブ・アプリを作りました。

使い方

エクセルデータをコピーします

ウェブ・アプリ上でデータの貼付け (①) 変数名の決定 (②)

変換されたデータをコピーし、R コンソールへペースト

必要な分、繰り返し

上手な使い方

今回は縦に入力されたデータをコピペしましたが、横に入力されたデータを変換することも出来ます。

留意点

無料
入力された数値のデータを取得しません
免責

参考

[R] Shinyの準備 (以前のエントリー)
My Web Apps (Shinyを利用した、他のウェブ・アプリケーション)

[R] 英文をabc順に並べ替えさらに番号を振るウェブ・アプリ

英文を単語に分解し、アルファベット順に並べ替え、さらに、並べ替えた後に番号をふるウェブ・アプリを作りました。

例えば、this is an example sentence と入力すると、
自動で ① an ② example ③ is ④ sentence ⑤ this と変換します。

http://hgnj.shinyapps.io/ABCOrderN/

使い方

もとの英文を、"Text Input" の下のボックスに入力します (例: this is an example sentence) 。
並べ替えられた英文が、"Text Arranged and Numbered" の下に表示されます (例: ① an ② example ③ is ④ sentence ⑤ this) 。
表示された英文をコピー・アンド・ペーストします。
必要に応じて整形 (タブやスペースを入れる) してください。

上手な使い方

文頭を小文字にする
文末のピリオドやクエスチョン・マークなどを入力しない

留意点

無料
入力された英文のデータを取得しません
免責

参考

[R] Shinyの準備 (以前のエントリー)

[R] 英文をabc順に並べ替えるウェブ・アプリ

英文を単語に分解し、アルファベット順に並べ替えるウェブ・アプリを作りました。

例えば、this is an example sentence と入力すると、
自動で ( an / example / is / sentence / this ) と変換します。

http://hgnj.shinyapps.io/ABCOrder/

使い方

もとの英文を、"Text Input" の下のボックスに入力します (例: this is an example sentence) 。
並べ替えられた英文が、"Text Arranged" の下に表示されます (例: ( an / example / is / sentence / this )) 。
表示された英文をコピー・アンド・ペーストします。

上手な使い方

文頭を小文字にする
文末のピリオドやクエスチョン・マークなどを入力しない

留意点

無料
入力された英文のデータを取得しません
免責

参考

[R] Shinyの準備 (以前のエントリー)

[R] koRpus (TreeTagger の Rラッパー) 準備

以前のエントリーの続き：

koRpus: an R packge for text analysis をインストールした:

install.packages("koRpus")
library(koRpus)

次は、実際に分析します:

[R] koRpus (TreeTagger の Rラッパー) で原形と品詞情報を得る

参考

Package ‘koRpus’ [pdf]
Using the koRpus Package for Text Analysis [pdf]

[R] Excel for mac で作ったCSVファイルをRで開く

Mac, R, Excel for mac メモ

症状：Excel for mac で管理していたデータを分析するために、csvファイルとして名前を付けて保存したが、Rで開けない。

Error in make.names(col.names, unique = TRUE) : invalid multibyte string at...

解決法：fileEncoding="cp932" と指定する。
x <- read.csv("file.csv", fileEncoding="cp932")

ソース

Mac OS X における Excel ファイルのエンコーディング (裏 RjpWiki)
Mac OS X における Excel ファイルのエンコーディング(2) (裏 RjpWiki)

[R] Shinyの準備

Shiny パッケージを使うと、インタラクティブな Web Application を手軽に作ることが出来るらしい。実物も拝見したが、とても素敵。

公式ページ関連:

Shiny by RStudio (本家のページ)

Teach yourself Shiny (チュートリアル)

ShinyApps.io from RStudio (Shiny app をデプロイ)
shiny: Web Application Framework for R (CRAN)

Package ‘shiny’ [pdf]

インストールに関する情報:

Getting Started Guide (GitHut rstudio/shinyapps)
RStudio Shiny ホスティングサービス ShinyApps.io の使い方 (Qiita)
続・はじめてのShiny (slideshare)

[R] Rでテキストマインニング (英語編)

Rを使って、英語で書かれたテキストを分析する準備。便利なリンク先とメモ：

OsakaR_7: Rでテキストマイニングをする前に

Package ‘tm’ [pdf]
Stemming (Wikipedia)
Lemmatisation (Wikipedia)

TreeTagger- a language independent part-of-speech tagger

TreeTaggerを使った英語の形態素解析 (よしなしごと)
Mac OS X でシェル(bash)のパスを通す (chichirou技術メモ)
TreeTagger [投野先生の授業ページwiki; Windowsでインストールから実行まで]
Tree Tagger の連続実行 [投野先生の授業ページwiki]

[メモ]"cmd/tree-tagger-english-utf8" は長いので、"tree-tagger-english-utf8"を"tteng"と名称変更した。→ ターミナルで "tteng ファイル名" で品詞と原形を表示してくれる。

＊＊＊＊＊

#tmパッケージをインストールする：
> install.packages("tm", dependencies=TRUE)

#tmパッケージを読み込む：
> library(tm)

登録: 投稿 (Atom)

Le Chat Blanc

[R] R の hist() でのヒストグラムに、各階級の度数を書き入れる #2

[R] R の hist() でのヒストグラムに、各階級の度数を書き入れる

1. やり方

2. 仕組み

[R] abc並べ替えスクリプト

[R] 単語の文字をバラバラ (かつ、元の形がなんとなくわかるよう) に並び替えるウェブ・アプリ

[R] .JPGファイルを別のフォルダーにコピーする

[R] 英文をabc順に並び替えさらにア.イ.ウ. ... と振るウェブ・アプリ

[R] install.packages() するパッケージのメモ (私家版)

[R] 文字列を加工するウェブ・アプリ

[R] koRpus (TreeTagger の Rラッパー) で原形と品詞情報を得る

[R] ggplo2 でヒストグラム描出入門

[R] ggplot2 入門

[R] R でファイルパスを取得

[R] Excel データをコピペするとベクトル (<-c()) に変換するウェブ・アプリ

[R] 英文をabc順に並べ替えさらに番号を振るウェブ・アプリ

[R] 英文をabc順に並べ替えるウェブ・アプリ

[R] koRpus (TreeTagger の Rラッパー) 準備

[R] Excel for mac で作ったCSVファイルをRで開く

[R] Shinyの準備

[R] Rでテキストマインニング (英語編)

[Car] クイック板金（2回目）

Search Amazon

不正行為を報告