ハンバーガーショップで学ぶ楽しい統計学をR言語でなんとかしてみる (分散と標準偏差)

向後研究室が一般公開しているWeb教材
ハンバーガーショップで学ぶ楽しい統計学」を利用してR言語を学んでいこうシリーズです。
詳しくは第1回目
ハンバーガーショップで学ぶ楽しい統計学をR言語でなんとかしてみる (平均)からご覧ください。

次回があると三日坊主だけはさけれそうです。

第3回目(分散)

第3回目は度数分布で表示したデータは数字的にどの程度ばらつきがあるのか分散の値を求めていきます。

Rを起動してポテトのデータのロードを忘れずに行ってください。

> waku <- scan("http://www.laddy.info/wp-content/uploads/2013/02/wakuwaku.txt")
Read 49 items
> mogu <- scan("http://www.laddy.info/wp-content/uploads/2013/02/mogumogu.txt")
Read 49 items

1.3 ばらつきを数字にする

例のごとく用語、計算式の考え方等々は本家の教材にお任せします。
http://kogolab.chillout.jp/elearn/hamburger/chap1/sec3.html

分散=((データ-平均値)の2乗)の総和÷個数

分散は、データが平均値を中心にして、どのくらいばらついているのかを示した数値です。

とりあえず教材と同じように並べてみる。

// ソートしたデータを棒グラフで表示する(ylimはY軸の表示する上限を設定)
> barplot(sort(waku), ylim=c(0,10), col="orange")
> barplot(sort(mogu), ylim=c(0,10), col="green")

左がワクワクバーガーのポテト、右がモグモグバーガーのポテトをソートして並べてみたもの。

ワクワクバーガーポテトの長さソートモグモグバーガーポテトの長さソート

1.4 分散と標準偏差

http://kogolab.chillout.jp/elearn/hamburger/chap1/sec4.html

分散=((データ-平均値)の2乗)の総和÷個数

この式のなかで2乗になっているので、単位はcmの2乗になります。元々のデータは長さの単位(cm)だったのに、分散の値はその2乗になっているわけです。

そこで、単位をそろえるためには、分散の値の平方根(ルート)をとればいいということになります。分散のルートを標準偏差と呼びます。式では、

標準偏差=(分散)の平方根

今回はこの分散と標準偏差の式をR言語で表現します。

分散の求め方

ワクワクバーガーの分散・標準偏差

// ^ はべき乗を表します。
> variance_waku = sum((waku - mean(waku)) ^ 2) / length(waku)
> variance_waku // 分散
[1] 0.6808163
> sqrt(variance_waku) // 標準偏差
[1] 0.8251159

モグモグバーガーの分散・標準偏差

> variance_mogu = sum((mogu - mean(mogu)) ^ 2) / length(mogu)
> variance_mogu
[1] 2.584898
> sqrt(variance_mogu)
[1] 1.607762

四捨五入すると教材とほぼ同じ数字が出てきたかと思います。

まとめ――平均、度数分布、分散、標準偏差
あるデータの集団を代表の値として平均を用いることが多い。
平均=データの総和÷個数
平均に違いがなくても、データのちらばり具合は異なることがある。
データのちらばり具合を見るためには、度数分布図を描く。
データのちらばり具合を示す数値として、分散や標準偏差を用いる。
分散=((データ-平均値)の二乗)の総和÷個数
標準偏差=(分散)のルート

今回利用した関数のまとめ

総和

> sum(c(2,3,4,5))  // 合計値

平均

> mean(c(2,3,4,5)) // 平均

要素数のカウント

> length(c(2,3,4,5))

要素のソート

> sort(c(4,2,7,8,3))

グラフ

> plot(c(0:5))
> barplot(c(0:5))
> hist(c(1,3,4,6,3,4))

次回は練習問題を飛ばして信頼区間に入っていきます。

コメントを残す