glmで「アルゴリズムが収束しませんでした」および「数値に0または1の確率で当てはめられました」という警告が表示されるのはなぜですか？

Question

したがって、これは非常に単純な質問であり、理解できないようです。

Glm関数を使用してロジットを実行していますが、独立変数に関連する警告メッセージが引き続き表示されます。それらは因子として保存され、数値に変更しましたが、運がありませんでした。また、それらを0/1にコーディングしましたが、それも機能しませんでした。

助けてください！

> mod2 <- glm(winorlose1 ~ bid1, family="binomial") Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred

私もZeligで試しましたが、同様のエラー：

> mod2 = zelig(factor(winorlose1) ~ bid1, data=dat, model="logit") How to cite this model in Zelig: Kosuke Imai, Gary King, and Oliva Lau. 2008. "logit: Logistic Regression for Dichotomous Dependent Variables" in Kosuke Imai, Gary King, and Olivia Lau, "Zelig: Everyone's Statistical Software," http://gking.harvard.edu/zelig Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred

編集：

> str(dat) 'data.frame': 3493 obs. of 3 variables: $ winorlose1: int 2 2 2 2 2 2 2 2 2 2 ... $ bid1 : int 700 300 700 300 500 300 300 700 300 300 ... $ home : int 1 0 1 0 0 0 0 1 0 0 ... - attr(*, "na.action")=Class 'omit' Named int [1:63021] 3494 3495 3496 3497 3498 3499 3500 3501 3502 3503 ... .. ..- attr(*, "names")= chr [1:63021] "3494" "3495" "3496" "3497" ...

joran · Answer

?glm（または、2番目の警告メッセージをGoogleで検索することもできます）、このドキュメントに出くわすことがあります。

二項GLMの「数値的に0または1に適合した確率」に関する警告メッセージの背景については、Venables＆Ripley（2002、pp。197-8）を参照してください。

今、誰もがその本を持っているわけではありません。しかし、私がこれを行うことはコーシャーだと仮定すると、関連する一節があります：

収束の問題とHauck-Donner現象の両方が発生するかなり一般的な状況が1つあります。これは、近似確率がゼロまたは1に非常に近い場合です。数千のケースと約50のバイナリ説明変数（より少ないカテゴリ変数のコーディングから発生する可能性があります）を含む医療診断問題を考えます。これらの指標の1つはめったに真実ではありませんが、常に病気が存在することを示します。その場合、その指標を持つケースの近似確率は1でなければなりません。これは、β_私 =∞。 glmの結果は警告であり、推定係数は約+/- 10になります。統計文献では、これについてかなり広範な議論が行われており、通常は最尤推定値が存在しないと主張しています。 Sautner and Duffy（1989、p。234）を参照してください。