Ce que vous avez fait est une régression logistique . Cela peut être fait dans pratiquement n'importe quel logiciel statistique, et le résultat sera similaire (au moins dans le contenu, bien que la présentation puisse être différente). Il existe un guide pour la régression logistique avec R sur l'excellent site d'aide statistique de UCLA. Si cela ne vous est pas familier, ma réponse est la suivante: différence entre les modèles logit et probit peut vous aider à comprendre ce qu'est le RL (bien que ce soit écrit dans un contexte différent).
Vous semblez avoir deux modèles présentés, je vais me concentrer principalement sur le premier. En outre, il semble y avoir eu une erreur dans la copie et coller le modèle ou la sortie, donc je vais échanger leaves.presence
avec Area
la sortie pour le rendre compatible avec le modèle. Voici le modèle (link="logit")
auquel je me réfère (remarque que j'ai ajoutée , ce qui est impliqué par family=binomial
; voir ? Glm et ? Family ):
glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)
Passons en revue cette sortie (remarquez que j'ai changé le nom de la variable dans la deuxième ligne sous Coefficients
):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
Tout comme il existe des résidus dans la régression linéaire (MCO), il peut exister des résidus dans la régression logistique et d'autres modèles linéaires généralisés. Ils sont plus compliqués lorsque la variable de réponse n’est pas continue, cependant. Les GLiM peuvent avoir cinq types de résidus différents, mais ce qui vient de la liste est les résidus de déviance. ( Déviance et les résidus sont plus avancés deviance, donc je serai bref ici, si cette discussion est un peu difficile à suivre, je ne vous inquiétez pas trop, vous pouvez sauter):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Pour chaque point de données utilisé dans votre modèle, la déviance associée à ce point est calculée. Ceci fait pour chaque point, vous avez un ensemble de tels résidus et la sortie ci-dessus est simplement une description non paramétrique de leur distribution.
Ensuite, nous voyons les informations sur les covariables, ce qui intéresse principalement les gens:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Pour un modèle de régression logistique simple comme celui-ci, il n'y a qu'une seule covariable ( Area
ici) et l'interception (également parfois appelée «constante»). Si vous aviez une régression logistique multiple, il y aurait des covariables supplémentaires énumérées ci-dessous, mais l'interprétation du résultat serait la même. Sous Estimate
la deuxième ligne se trouve le coefficient associé à la variable répertoriée à gauche. C'est le montant estimé par lequel la probabilité de log leaves.presence
augmenterait si Area
l'unité était plus élevée. La cote du journal de leaves.presence
quand Area
est0est juste au-dessus dans la première rangée. (Si vous n'êtes pas suffisamment familiarisé avec les cotes de log, cela peut vous aider à lire ma réponse ici: interprétation des prédictions simples aux odds ratios dans la régression logistique .) Dans la colonne suivante, nous voyons l' erreur type associée à ces estimations. C'est-à-dire qu'ils représentent une estimation de la moyenne, en moyenne, de ces estimations qui rebondiraient si l'étude était répétée à l'identique, mais avec de nouvelles données, encore et encore. (Si vous n’êtes pas très familier avec l’idée d’une erreur type, cela peut vous aider à lire ma réponse ici: comment interpréter les erreurs types des coefficients dans la régression linéaire .) Si nous devions diviser l'estimation par l'erreur type, nous obtiendrions un quotient supposé être normalement distribué avec des échantillons suffisamment grands. Cette valeur est répertoriée sous z value
. Ci Pr(>|z|)
- dessous sont énumérées les valeurs p bilatérales qui correspondent à ces valeurs z dans une distribution normale standard. Enfin, il y a les étoiles de signification traditionnelles (et notez la clé sous le tableau des coefficients).
La Dispersion
ligne est imprimée par défaut avec GLiMs, mais n'ajoute pas beaucoup d'informations ici (elle est plus importante avec les modèles de comptage, par exemple). Nous pouvons l'ignorer.
Enfin, nous obtenons des informations sur le modèle et sa qualité d'ajustement:
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
La ligne à propos de missingness
est souvent manquante. Il montre ici parce que vous aviez 314 observations pour lesquelles soit leaves.presence
, Area
ou les deux avaient disparu. Ces observations partielles n'ont pas été utilisées pour adapter le modèle.
Le Residual deviance
est une mesure du manque d'ajustement de votre modèle pris dans son ensemble, tandis que le Null deviance
est une telle mesure pour un modèle réduit qui ne comprend que l'interception. Notez que les degrés de liberté associés à ces deux ne diffèrent que d’un seul. Étant donné que votre modèle ne comporte qu'une seule covariable, un seul paramètre supplémentaire a été estimé (le Estimate
pour Area
) et, par conséquent, un seul degré de liberté supplémentaire a été utilisé. Ces deux valeurs peuvent être utilisées pour tester le modèle dans son ensemble, ce qui serait analogue au modèle global.F-test qui vient avec un modèle de régression linéaire multiple. Comme vous n'avez qu'une seule covariable, un tel test serait sans intérêt dans ce cas.
L' AIC est une autre mesure de la qualité de l'ajustement qui prend en compte la capacité du modèle à ajuster les données. Ceci est très utile lorsque vous comparez deux modèles où l’un peut s’intégrer mieux, mais peut-être uniquement en raison de sa plus grande souplesse et de sa capacité à mieux adapter toutes les données. Comme vous n’avez qu’un modèle, cela n’est pas informatif.
La référence à Fisher scoring iterations
concerne la manière dont le modèle a été estimé. Un modèle linéaire peut être ajusté en résolvant des équations sous forme fermée. Malheureusement, cela ne peut pas être fait avec la plupart des GLiM, y compris la régression logistique. Au lieu de cela, une approche itérative (l' algorithme de Newton-Raphson par défaut) est utilisée. En gros, le modèle est ajusté en fonction d'une estimation de ce que pourraient être les estimations. L'algorithme regarde ensuite autour de vous pour voir si l'ajustement serait amélioré en utilisant différentes estimations à la place. Si tel est le cas, il se déplace dans cette direction (par exemple, en utilisant une valeur plus élevée pour l'estimation), puis il réajuste le modèle. L'algorithme s'arrête quand il ne s'aperçoit pas que se déplacer à nouveau apporterait beaucoup d'amélioration supplémentaire. Cette ligne vous indique le nombre d'itérations avant l'arrêt du processus et l'affichage des résultats.
En ce qui concerne le deuxième modèle et la sortie que vous avez énumérés, il s’agit simplement d’une manière différente d’afficher les résultats. Plus précisément, ces
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
sont du même type d’estimations que celles évoquées ci-dessus (bien qu’à partir d’un modèle différent et présentées avec moins d’informations supplémentaires).