web-dev-qa-db-ja.com

Python t統計を取得する関数

信頼区間の計算で使用するためにt統計を取得するために、Python関数(または、独自の関数がない場合)を探しています)を探しています。

this one のようなさまざまな確率/自由度の答えを提供するテーブルを見つけましたが、任意の確率でこれを計算できるようにしたいと思います。この自由度にまだ慣れていない人にとっては、サンプルのデータポイントの数(n)は-1で、上部の列見出しの数は確率(p)です。 n検定を繰り返した場合に結果が平均+/-信頼区間内に収まるという95%信頼度の計算に使用するtスコアを調べる場合は、両側有意水準0.05が使用されます。

Scipy.stats内でさまざまな関数を使用することを検討しましたが、上記で説明した単純な入力を許可しているように見えるものはありません。

Excelには、これの簡単な実装があります。 1000のサンプルのtスコアを取得するには、使用する95%の自信が必要です:=TINV(0.05,999)とスコア〜1.96を取得します

信頼区間を実装するためにこれまで使用したコードは次のとおりです。ご覧のとおり、現在tスコアを取得する非常に粗雑な方法を使用しています(perc_confにいくつかの値を許可し、サンプル<1000):

# -*- coding: utf-8 -*-
from __future__ import division
import math

def mean(lst):
    # μ = 1/N Σ(xi)
    return sum(lst) / float(len(lst))

def variance(lst):
    """
    Uses standard variance formula (sum of each (data point - mean) squared)
    all divided by number of data points
    """
    # σ² = 1/N Σ((xi-μ)²)
    mu = mean(lst)
    return 1.0/len(lst) * sum([(i-mu)**2 for i in lst])

def conf_int(lst, perc_conf=95):
    """
    Confidence interval - given a list of values compute the square root of
    the variance of the list (v) divided by the number of entries (n)
    multiplied by a constant factor of (c). This means that I can
    be confident of a result +/- this amount from the mean.
    The constant factor can be looked up from a table, for 95% confidence
    on a reasonable size sample (>=500) 1.96 is used.
    """
    if perc_conf == 95:
        c = 1.96
    Elif perc_conf == 90:
        c = 1.64
    Elif perc_conf == 99:
        c = 2.58
    else:
        c = 1.96
        print 'Only 90, 95 or 99 % are allowed for, using default 95%'
    n, v = len(lst), variance(lst)
    if n < 1000:
        print 'WARNING: constant factor may not be accurate for n < ~1000'
    return math.sqrt(v/n) * c

上記のコードの呼び出し例を次に示します。

# Example: 1000 coin tosses on a fair coin. What is the range that I can be 95%
#          confident the result will f all within.

# list of 1000 perfectly distributed...
perc_conf_req = 95
n, p = 1000, 0.5 # sample_size, probability of heads for each coin
l = [0 for i in range(int(n*(1-p)))] + [1 for j in range(int(n*p))]
exp_heads = mean(l) * len(l)
c_int = conf_int(l, perc_conf_req)

print 'I can be '+str(perc_conf_req)+'% confident that the result of '+str(n)+ \
      ' coin flips will be within +/- '+str(round(c_int*100,2))+'% of '+\
      str(int(exp_heads))
x = round(n*c_int,0)
print 'i.e. between '+str(int(exp_heads-x))+' and '+str(int(exp_heads+x))+\
      ' heads (assuming a probability of '+str(p)+' for each flip).' 

この出力は次のとおりです。

1000コインフリップの結果が500の+/- 3.1%以内、つまり469ヘッドと531ヘッドの間にあることを95%確信できます(各フリップの確率は0.5と仮定)。

また、範囲の t-distribution を計算し、必要な確率に最も近い確率を取得したtスコアを返しましたが、式の実装に問題がありました。これが関連していて、あなたがコードを見たいかどうかを私に知らせてください。

前もって感謝します。

24
ChrisProsser

Scipyを試しましたか?

Scipyライブラリをインストールする必要があります...インストールの詳細については、こちらをご覧ください: http://www.scipy.org/install.html

インストールしたら、次のようなExcel機能を複製できます。

from scipy import stats
#Studnt, n=999, p<0.05, 2-tail
#equivalent to Excel TINV(0.05,999)
print stats.t.ppf(1-0.025, 999)

#Studnt, n=999, p<0.05%, Single tail
#equivalent to Excel TINV(2*0.05,999)
print stats.t.ppf(1-0.05, 999)

ライブラリのインストールについては、こちらから読むこともできます。 pythonのscipyのインストール方法

41
henderso

次のコードを試してください:

from scipy import stats
#Studnt, n=22,  2-tail
#stats.t.ppf(1-0.025, df)
# df=n-1=22-1=21
print (stats.t.ppf(1-0.025, 21))
2
javac

このコードを試すことができます:

# for small samples (<50) we use t-statistics
# n = 9, degree of freedom = 9-1 = 8
# for 99% confidence interval, alpha = 1% = 0.01 and alpha/2 = 0.005
from scipy import stats

ci = 99
n = 9
t = stats.t.ppf(1- ((100-ci)/2/100), n-1) # 99% CI, t8,0.005
print(t) # 3.36
0
user8864088