web-dev-qa-db-ja.com

Rの二項データの信頼区間?

私は間隔を見つけるために平均値と標準偏差が必要であることを知っていますが、質問が次の場合はどうなりますか?

A survey of 1000 randomly chosen workers, 520 of them are female. Create a 95% confidence interval for the proportion of wokrers who are female based on survey.

そのための平均値とs.dを見つけるにはどうすればよいですか?

16
Pig

パッケージstatsprop.test、またはbinom.testを使用することもできます。

prop.test(x, n, conf.level=0.95, correct = FALSE)

        1-sample proportions test without continuity correction

data:  x out of n, null probability 0.5
X-squared = 1.6, df = 1, p-value = 0.2059
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
 0.4890177 0.5508292
sample estimates:
   p 
0.52 

興味深い この記事 を見つけることができます。861ページの表1では、7つの方法(nとrの選択した組み合わせ)を使用して計算された単一の比率に対して、異なる信頼区間が与えられています。 prop.testを使用すると、テーブルの行3と4にある結果を取得できますが、binom.testは行5にある結果を返します。

23
George Dontas

この場合、二項分布があるので、 二項比率信頼区間 を計算します。

Rでは、パッケージHmiscからbinconf()を使用できます

> binconf(x=520, n=1000)
 PointEst     Lower     Upper
     0.52 0.4890177 0.5508292

または、自分で計算することもできます。

> p <- 520/1000
> p + c(-qnorm(0.975),qnorm(0.975))*sqrt((1/1000)*p*(1-p))
[1] 0.4890345 0.5509655
14
Zbynek

または、propCIパッケージの関数prevalenceを使用して、最もよく使用される5つの二項信頼区間を取得します。

> library(prevalence)
> propCI(x = 520, n = 1000)
    x    n    p        method level     lower     upper
1 520 1000 0.52 agresti.coull  0.95 0.4890176 0.5508293
2 520 1000 0.52         exact  0.95 0.4885149 0.5513671
3 520 1000 0.52      jeffreys  0.95 0.4890147 0.5508698
4 520 1000 0.52          wald  0.95 0.4890351 0.5509649
5 520 1000 0.52        wilson  0.95 0.4890177 0.5508292

別のパッケージ:toleranceは、典型的な分布関数のトンの信頼度/許容範囲を計算します。

2
Carl Witthoft