web-dev-qa-db-ja.com

RのQuantile()関数を説明する

私は一日中R分位数関数に不思議に思っています。

私は分位点がどのように機能するかという直観的な概念を持っています。統計では、しかし男の子ああ男の子、それのためのドキュメントは私を混乱させます。

ドキュメントから:

Q [i](p)=(1-ガンマ)x [j] +ガンマx [j + 1]、

私はこれまでのところそれを使っています。タイプi変位値の場合、これはx [j]とx [j + 1]の間の補間であり、不思議な定数ガンマ

ここで、1 <= i <= 9、(jm)/ n <= p <(j-m + 1)/ n、x [j]はj次の統計、nはサンプルサイズ、mは決定された定数サンプル変位値タイプ。ここで、ガンマはg = np + m-jの小数部分に依存します。

それでは、jをどのように計算しますか? m?

連続サンプル変位値タイプ(4から9)の場合、サンプル変位値は、k次の統計とp(k)の間の線形補間によって取得できます。

p(k)=(k-alpha)/(n-alpha-beta + 1)ここで、αとβは型によって決まる定数です。さらに、m =アルファ+ p(1-アルファ-ベータ)、およびガンマ= g。

今、私は本当に迷っています。以前は定数でしたpは、明らかに関数です。

したがって、タイプ7変位値の場合、デフォルトは...

タイプ7

p(k)=(k-1)/(n-1)。この場合、p(k) = mode [F(x [k]))]これはSによって使用されます。

誰か私を助けたいですか?特に、私はpが関数と定数であるという表記、一体mとは何か、そして今、特定のjを計算することに混乱していますp

ここでの回答に基づいて、ここで何が行われているのかをよりよく説明する改訂されたドキュメントを提出できることを願っています。

quantile.Rソースコード またはタイプ:quantile.default

63
Gregg Lind

当然のことながら混乱しています。そのドキュメントはひどいです。 (Hyndman、RJ; Fan、Y.(1996年11月)に基づいた論文に戻る必要がありました。「統計パッケージのサンプル分位数」American Statistician50(4 ):361–365。 doi:10.2307/2684934 )理解を深めます。最初の問題から始めましょう。

ここで、1 <= i <= 9、(jm)/ n <= p <(j-m + 1)/ n、x [j]はj次の統計、nはサンプルサイズ、mは決定された定数サンプル変位値タイプ。ここで、ガンマはg = np + m-jの小数部分に依存します。

最初の部分は紙から直接来ていますが、ドキュメント作成者が省略したのはj = int(pn+m)です。つまり、Q[i](p)は、(ソートされた)観測値のpの端数に最も近い2つの順序の統計にのみ依存します。 (私のように、この用語に慣れていない人にとって、一連の観測の「順序統計量」はソートされた系列です。)

また、その最後の文は間違っています。読むべき

ここで、ガンマはnp + mの小数部に依存します。g= np + m-j

mについては簡単です。 mは、選択された9つのアルゴリズムのどれに依存します。したがって、_Q[i]_が変位値関数であるように、mは_m[i]_と見なす必要があります。アルゴリズム1と2の場合、mは0、3の場合はmは-1/2、その他の場合は次の部分になります。

連続サンプル変位値タイプ(4から9)の場合、サンプル変位値は、k次の統計とp(k)の間の線形補間によって取得できます。

p(k)=(k-alpha)/(n-alpha-beta + 1)ここで、αとβは型によって決まる定数です。さらに、m =アルファ+ p(1-アルファ-ベータ)、およびガンマ= g。

これは本当に混乱します。ドキュメントがp(k)と呼ぶものは、以前のpと同じではありません。 p(k)プロット位置 です。論文では、著者はそれをpと表記しています。k、それが役立ちます。特にmの式では、pが元のpであり、m = alpha + p * (1 - alpha - beta)です。概念的には、アルゴリズム4〜9の場合、ポイント(pk、_x[k]_)は、ソリューション(pQ[i](p))を取得するために補間されます。各アルゴリズムは、pのアルゴリズムのみが異なりますk

最後のビットに関しては、RはSが使用するものを述べているだけです。

オリジナルの論文は、6つの「サンプル分位点の望ましいプロパティ」関数のリストを示し、1ですべてを満足する#8の優先順位を述べています。原理から導き出されるよりも現象論的)。 #2は、私などの非統計オタクが分位点を考慮するものであり、ウィキペディアで説明されているものです。

ちなみに、Mathematicaは dreeves answer への応答として物事を大きく異なる方法で実行します。マッピングは理解できたと思います。 Mathematicaの方が理解しやすいですが、(a)無意味なパラメータを使って自分の足を撃つのが簡単であり、(b)Rのアルゴリズム#2を実行できません。 (これは MathworldのQuantileページ であり、Mathematicaは#2を実行できないと述べていますが、他のすべてのアルゴリズムを4つのパラメーターに関してより簡単に一般化しています。)

57
AFoglia

ベクトルを与え、既知のCDFがない場合、変位値を計算するさまざまな方法があります。

観測値が分位点に正確に当てはまらない場合の対処法について検討します。

「タイプ」は、その方法を決定するだけです。したがって、メソッドは、「k次の統計とp(k)の間の線形補間を使用する」と言います。

それで、p(k)は何ですか?一人の男は「まあ、私はk/nを使うのが好きだ」と言います。別の男は、「(k-1)/(n-1)を使用するのが好きだ」などと言います。これらの各メソッドには、問題に適したさまざまなプロパティがあります。

\ alphaと\ betaは、関数pをパラメーター化するための単なる方法です。 1つの場合は1と1です。別の場合は、3/8と-1/4です。ドキュメンテーションでは、pが常に一定であるとは思いません。依存関係を常に明示的に示しているわけではありません。

1:5や1:6のようなベクターを使用すると、さまざまなタイプで何が起こるかを確認してください。

(観測値が分位点に正確に当てはまる場合でも、特定のタイプは線形補間を使用することにも注意してください)。

5
Baltimark