Interprétation de la sortie drop1 dans R

Dans R, la drop1commande sort quelque chose de bien.
Ces deux commandes devraient vous donner une sortie:
example(step)#-> swiss
drop1(lm1, test="F")

Le mien ressemble à ceci:

> drop1(lm1, test="F")
Single term deletions

Model:
Fertility ~ Agriculture + Examination + Education + Catholic + 
    Infant.Mortality
                 Df Sum of Sq    RSS    AIC F value     Pr(F)    
<none>                        2105.0 190.69                      
Agriculture       1    307.72 2412.8 195.10  5.9934  0.018727 *  
Examination       1     53.03 2158.1 189.86  1.0328  0.315462    
Education         1   1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic          1    447.71 2552.8 197.75  8.7200  0.005190 ** 
Infant.Mortality  1    408.75 2513.8 197.03  7.9612  0.007336 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Qu'est-ce que tout cela veut dire? Je suppose que les "étoiles" aident à décider quelles variables d'entrée doivent être conservées. En regardant la sortie ci-dessus, je veux jeter la variable "Examination" et me concentrer sur la variable "Education", l'interprétation est-elle correcte?

En outre, la valeur AIC, inférieure est meilleure, oui?

Ed. Veuillez noter la réponse du wiki communautaire ci-dessous et y ajouter si vous le souhaitez, pour clarifier cette sortie.

r regression self-study stepwise-regression

— gakera
source

l'aide de R est destinée à vous expliquer comment utiliser la fonction. Il ne s'agit pas d'un cours sur les statistiques. Et à ce sujet, en général, je pense que les pages d'aide R sont parmi les plus complètes et les plus pratiques de tous les packages open source que je connaisse. Et payer des forfaits d'ailleurs. SPSS et SAS vous donnent beaucoup de mumbo-jumbo avec des demi-vérités et des non-sens complets comme un "guide pour l'interprétation".

— Joris Meys

Cette question a été rejetée. Je n'avais pas l'intention de donner mon +1, mais il me semble maintenant que le voter n'est pas très constructif: (1) l'OP indique clairement qu'il s'agit de devoirs et utilise un ensemble de données intégré R pour l'illustration, pas le sien (2) une question connexe avec step()une note de +2 au moment d'écrire ces lignes (alors pourquoi?!), (3) le PO a reconnu l'utilité de la réponse de @ Joris.

— chl

@chl: il semble que je ne suis pas le seul à avoir les orteils sensibles en ce qui concerne les pages d'aide R :-). Mais je suis entièrement d'accord avec vous. La question est valable, posée de manière claire et il n'y a donc absolument aucune raison de la déprécier.

— Joris Meys

Hé, je suis désolé si j'ai marché sur vos orteils avec mon snide à l'aide, je ne suis tout simplement pas très patient quand il s'agit de quoi que ce soit avec une ligne de commande vraiment. Je suis bizarre de cette façon, je sais. Vous ne seriez pas les premiers à m'appeler dessus :) J'aime cet endroit, les gens sont honnêtes.

— gakera

Voilà, j'ai édité la question afin qu'elle ne soit pas aussi rebutante pour les partisans de R et de l'aide R :) Et j'ai reformulé la question sur AIC pour éviter de tromper les lecteurs OP uniquement.

— gakera

Réponses:

drop1vous donne une comparaison des modèles basés sur le critère AIC, et lorsque vous utilisez l'option test="F"vous y ajoutez une "ANOVA de type II", comme expliqué dans les fichiers d'aide . Tant que vous n'avez que des variables continues, ce tableau est exactement équivalent à summary(lm1), car les valeurs F ne sont que ces valeurs T au carré. Les valeurs P sont exactement les mêmes.

Alors qu'en faire? Interprétez-le exactement de cette façon: il exprime en quelque sorte si le modèle sans ce terme est "significativement" différent du modèle avec ce terme. Attention au "" autour, car la signification ici ne peut pas être interprétée comme le pensent la plupart des gens. (problème de multi-tests et tout ...)

Et en ce qui concerne l'AIC: plus la valeur est basse, mieux c'est. AIC est une valeur qui va pour le modèle , pas pour la variable. Ainsi, le meilleur modèle de cette sortie serait celui sans examen variable.

Attention, le calcul des statistiques AIC et F est différent des fonctions R AIC(lm1)resp. anova(lm1). Car AIC(), ces informations sont données sur les pages d'aide de extractAIC(). Pour la anova()fonction, il est assez évident que les SS de type I et de type II ne sont pas les mêmes.

J'essaie de ne pas être impoli, mais si vous ne comprenez pas ce qui est expliqué dans les fichiers d'aide, vous ne devriez pas utiliser la fonction en premier lieu. La régression pas à pas est incroyablement délicate, mettant en péril vos valeurs p de la manière la plus profonde. Encore une fois, ne vous basez pas sur les valeurs de p. Votre modèle doit refléter votre hypothèse et non l'inverse.

— Joris Meys
source

J'aime ce sentiment, "si je ne comprends pas déjà ce que je fais, je ne devrais pas essayer de l'apprendre ..." C'est aussi l'approche adoptée dans l'aide R - ce n'est utile que si vous savez déjà ce qui est passe. J'espérais que cela pourrait être le début de quelque chose de différent.

— gakera

Mais je peux utiliser cette partie de votre réponse: "Interprétez-le exactement de cette façon: il exprime si le modèle sans ce terme est significativement différent du modèle avec ce terme." Pour moi, cela signifie que les valeurs Pr (F) sont la signification de chacun de ces termes, et une petite valeur signifie que cette variable est importante. Ainsi, un bon modèle devrait inclure les variables "***" et non celles qui n'ont pas d'étoiles.

— gakera

@gakera: Vous vous êtes trompé. Si vous ne comprenez pas ce que vous faites, vous devez absolument essayer de l'apprendre avant de l'utiliser . Cela signifie, lire des statistiques et suivre un cours. Ainsi, un bon modèle devrait inclure les variables formulées dans l'hypothèse. Si vous vous basez sur les variables "***", vous avez d'abord besoin d'un cours complet sur la modélisation. Vous n'avez évidemment pas compris mon dernier commentaire. Désolé pour la communication directe, vient avec le gars. Rien de personnel.

— Joris Meys

@gakera: J'ai mis à jour ma réponse pour clarifier certains points importants. Principalement parce que vous avez mal interprété la partie que vous pensiez pouvoir utiliser.

— Joris Meys

J'apprends en faisant, ce sont des devoirs après tout, personne ne va mourir si je ne comprends pas bien - les poissons sont déjà morts: P Merci pour l'aide jusqu'à présent, et ne vous inquiétez pas, ce n'est pas ma première fois sur internet :)

— gakera

Pour référence, ce sont les valeurs qui sont incluses dans le tableau:
Dffait référence aux degrés de liberté , "le nombre de degrés de liberté est le nombre de valeurs dans le calcul final d'une statistique qui sont libres de varier".

La Sum of Sqcolonne fait référence à la somme des carrés (ou plus précisément à la somme des écarts au carré ). En bref, il s'agit d'une mesure du montant que chaque valeur individuelle s'écarte de la moyenne globale de ces valeurs.
RSSest la somme résiduelle des carrés . Il s'agit d'une mesure de la variation de la valeur prédite de la variable dépendante (ou de sortie) par rapport à la valeur réelle pour chaque point de données de l'ensemble (ou plus familièrement: chaque "ligne" dans le tableau de données).

AICest le critère d'information d'Akaike qui est généralement considéré comme «trop complexe à expliquer» mais qui, en bref, est une mesure de la qualité de l'ajustement d'un modèle statistique estimé. Si vous avez besoin de plus de détails, vous devrez vous tourner vers des arbres morts avec des mots dessus (c'est-à-dire des livres). Ou Wikipedia et les ressources là-bas.

Le F valueest utilisé pour effectuer ce qu'on appelle un test F et de lui dérive la Pr(F)valeur, qui décrit la probabilité (ou Probable = Pr) que la valeur F est. Une valeur Pr (F) proche de zéro (indiquée par ***) indique une variable d'entrée qui est en quelque sorte importante à inclure dans un bon modèle, c'est-à-dire qu'un modèle qui ne l'inclut pas est "significativement" différent de celui cela fait.

Toutes ces valeurs sont, dans le contexte de la drop1commande, calculées pour comparer le modèle global (y compris toutes les variables d'entrée) avec le modèle résultant de la suppression de cette variable spécifique pour chaque ligne du tableau de sortie.

Maintenant, si cela peut être amélioré, n'hésitez pas à y ajouter ou à clarifier tout problème. Mon but est seulement de clarifier et de fournir une meilleure référence de "recherche inversée" de la sortie d'une commande R à sa signification réelle.

— gakera
source

@gakera Practical Regression et Anova utilisant R est un bon point de départ pour comprendre les modèles linéaires et les méthodes liées à la sélection des variables / modèles. Comme l'a souligné @Joris, la régression pas à pas est rarement la panacée.

— chl

hah, merci d'avoir ajouté les liens @chl tout en maintenant ma clause de non-responsabilité expliquant pourquoi je ne peux pas les publier. Vous devez accepter que je suce: D

— gakera

@gakera Je pense que vous devez avoir plus de représentants pour ajouter plus d'un lien par modification - je peux comprendre que ce n'est pas très agréable lorsque vous démarrez sur un site Web de questions / réponses. Je supposais que vous supprimeriez vous-même votre dernière phrase. D'un autre côté, je pense que vous ne devriez pas vous attendre à trop de votes positifs pour répondre à votre propre question, car c'est une sorte de récapitulation '(utile, cependant).

— chl

Je ne fais pas cela pour les votes positifs (c'est tellement Reddit: P) - un récapitulatif utile est exactement ce que je veux - principalement pour moi-même mais probablement utile pour les autres également.

— gakera

@gakera Je suis sûr que ce n'était pas pour obtenir des votes positifs. La plupart du temps, nous définissons notre propre réponse en tant que Community Wiki (CW), lorsqu'ils n'ajoutent pas d'informations supplémentaires ou contradictoires. Il s'agit d'une façon neutre de résumer ou d'agréger les réponses des autres.

— chl