お勉強メモ

経済学・計量経済学・統計学などのお勉強メモです。

統計学メモ:区間推定のRコード

・本稿の内容
区間推定を視覚的に理解するためのRコードをメモします。母集団が正規分布で分散が既知である場合の平均値の区間推定を信頼係数95%で実施し、その結果を視覚的に確認します。

Ⅰ:Rコード

母集団がN(50,10^2)正規分布に従うとする。母集団の平均値の区間推定を信頼係数95%で実施し、信頼区間を求める。以下に区間推定を行うためのRコードを記載する。*1

#区間推定のサンプルコード

#サンプルサイズ
#※サンプルサイズを大きくすればするほど、信頼区間の幅が狭くなっていく。
n<-50
#サンプル数
N<-100
#グラフ描画
plot(c(0,N),c(40,60),type='n',axes=T,xlab='',ylab='')
axis(1)
#母集団の平均値50で横線
abline(h=50)
y1<-y2<-numeric(N)
for(i in 1:N){
  #平均50、標準偏差10の正規分布に従う確率変数をn個生成
  y<-rnorm(n,50,10)
  #95%信頼区間の下限値と上限値
  y1[i]<-mean(y)+qnorm(0.975,mean = 0,sd = 1)*sd(y)/sqrt(n)
  y2[i]<-mean(y)-qnorm(0.975,mean = 0,sd = 1)*sd(y)/sqrt(n)
  #信頼区間の線分を描画
  segments(i,y1[i],i,y2[i],lwd = 2)
}

上記のコードを実行すると以下のような図が出力される。*2


図1:95%信頼区間

この図はn個のサンプルを抽出し、信頼区間を求めるという作業を100回繰り返したときの結果を視覚化したものである。信頼係数95%の区間推定を実施したため、母平均の値50を含む信頼区間が求められる確率は95%となっているはずである。*3図1で母平均の値50を含まない信頼区間の箇所に赤枠を付けたものが以下の図である。


図2:母集団の平均値50を含まない信頼区間

100個の信頼区間のうち、6個に赤枠が付いている。つまり、94%という95%とほぼ同じ確率で母平均の値50を含む信頼区間が求められたということである。

*1:本稿のRコードは神永・木下[2019]の第13章を参考にして作成しました。

*2:乱数を発生させているので実行結果は毎回異なります。

*3:ここの言い回しは注意しなければいけないところです。母集団の平均値はあくまでも定数[※ベイズ統計の考え方は今は無視します]であって、確率変数ではありません。「母集団の平均値が95%の確率で信頼区間の中に収まる」といった言い方は厳密には誤りとなります。詳しくは神永・木下[2019]の第13章などを参照してください。