Est-ce une idée erronée d'utiliser des coefficients standardisés pour évaluer l'importance relative des prédicteurs de régression?


9

Diverses questions portent sur les mérites relatifs de diverses méthodes d'évaluation de l'importance des prédicteurs de régression, par exemple celle- ci.

J'ai remarqué que dans ce commentaire @gung se réfère à la pratique comme une "idée erronée", reliant cette réponse à l'appui de cette affirmation. Le dernier paragraphe de la réponse est la partie pertinente.

Je pense que cette question mérite sa propre question, et je suis également un peu incertain sur certains aspects du raisonnement. Le segment le plus important du paragraphe en question va

à moins que le vrai r soit exactement 0, le r estimé dépend en grande partie de la plage de valeurs de covariables utilisées.

Est-ce que cela équivaut à dire que nous ne devrions pas utiliser de coefficients standardisés pour évaluer l'importance, car nous aurions pu échantillonner au hasard une plage restreinte de valeurs et une plage plus large de valeurs ? Ensuite, lorsque nous normalisons ce problème n'a pas disparu, et nous finissons par penser à tort que est un prédicteur plus faible que ?X1X2X1X2

Pourquoi le problème disparaît-il si le vrai est exactement 0?r

Comment d'autres méthodes (par exemple en examinant les coefficients semi-partiels) résolvent-elles ce problème?


2
Je laisse le soin à @gung d'expliquer ce qu'il voulait dire. Il existe de nombreuses publications sur l'importance relative des variables dans la régression et les bêtas standardisés sont certainement la réponse conventionnelle des statisticiens. Parmi les faiblesses de cette approche, il y a les problèmes liés à l'erreur-type ou à la variabilité des estimations pour le bêta. Ces questions, ainsi qu'un examen approfondi de la littérature et des approches possibles, sont repris par Ulrike Gromping dans ses articles sur ce sujet. De plus, elle a développé un module R, RELAIMPO ... prof.beuth-hochschule.de/groemping/relaimpo
Mike Hunter

Juste une note au PO pour être prudent s'il se trouve aux États-Unis pour télécharger le package depuis le site Web de CRAN et non d'UG, voir la restriction sur la page recommandée par
@DJohnson

Réponses:


4

La réponse de Gungs est à mon avis une critique de l'idée de comparer la force relative de différentes variables dans une analyse empirique sans avoir à l'esprit un modèle sur la façon dont ces variables interagissent ou à quoi ressemble la distribution (vraie) conjointe de toutes les variables pertinentes. Pensez à l'exemple de l'importance des mentions pulmonaires de la taille et du poids de l'athlète. Personne ne peut prouver que, par exemple, une régression linéaire additive est une bonne approximation de la fonction d'attente conditionnelle ou en d'autres termes, la taille et le poids peuvent être importants d'une manière très compliquée pour la performance de l'athlète. Vous pouvez exécuter une régression linéaire incluant les deux variables et comparer les coefficients standardisés mais vous ne savez pas si les résultats ont vraiment du sens.

Pour donner un exemple de Mickey Mouse, en regardant le grimpeur sportif (mes sports préférés), voici une liste des meilleurs grimpeurs masculins selon une mesure de performance prise sur le site 8a.nu avec des informations sur leur taille, leur poids et l'année de naissance (seulement ceux informations disponibles). Nous normalisons au préalable toutes les variables afin de pouvoir comparer directement l'association entre un changement d'écart type des prédicteurs et un changement d'écart type dans la distribution des performances. En excluant pour l'illustration le numéro un, Adam Ondra, qui est inhabituellement grand, nous obtenons le résultat suivant. :

    rm(list=ls(all=TRUE))
    # Show only two decimal places
    options(digits=2)
    # Read Data and attach
    climber<-read.table("https://drive.google.com/uc?export=&confirm=no_antivirus&id=0B70aDwYo0zuGNGJCRHNrY0ptSW8",sep="\t",header=T)
    head(climber)
    # Drop best climber Adam Ondra who is very tall (kind of outlier)
    climber<-subset(climber,name!="Adam Ondra")
    # Standardize Predictors
    climber$performance_std<-(climber$performance-mean(climber$performance))/sd(climber$performance)
    climber$height_std<-(climber$height-mean(climber$height))/sd(climber$height)
    climber$weight_std<-(climber$weight-mean(climber$weight))/sd(climber$weight)
    climber$born_std<-(climber$born-mean(climber$born))/sd(climber$born)
    # Simple Regression, excluding intercept because of the standardization
    lm(performance_std~height_std+weight_std-1,data=climber)$coef
height_std weight_std 
 -0.16      -0.25 

En ignorant les erreurs standard, etc., il semble que le poids soit plus important que la hauteur ou tout aussi important. Mais on pourrait soutenir que les grimpeurs se sont améliorés au fil du temps. Peut-être devrions-nous contrôler les effets de cohorte, par exemple les possibilités de formation grâce à de meilleures installations intérieures? Incluons l'année de naissance!

    # Add year of birth
    lm(performance_std~height_std+weight_std+born_std-1,data=climber)$coef
height_std weight_std   born_std 
-0.293     -0.076      0.256

Maintenant, nous constatons qu'être jeune et petit est plus important qu'être mince. Mais maintenant, une autre personne pourrait soutenir que cela ne vaut que pour les meilleurs grimpeurs? Il pourrait être judicieux de comparer les coefficients standardisés sur l'ensemble de la distribution des performances (par exemple via la régression quantile). Et bien sûr, cela peut différer pour les grimpeuses qui sont beaucoup plus petites et plus minces. Personne ne sait.

Ceci est un exemple de Mickey Mouse de ce à quoi je pense que le gung fait référence. Je ne suis pas si sceptique, je pense qu'il peut être judicieux d'examiner des coefficients standardisés, si vous pensez que vous avez spécifié le bon modèle ou que la séparabilité additive a du sens. Mais cela dépend aussi souvent de la question posée.

Concernant les autres questions:

Est-ce que cela équivaut à dire que nous ne devrions pas utiliser de coefficients standardisés pour évaluer l'importance, car nous aurions pu échantillonner au hasard une plage restreinte de valeurs X1 et une plage plus large de valeurs X2? Ensuite, lorsque nous normalisons ce problème n'a pas disparu, et nous finissons par penser à tort que X1 est un prédicteur plus faible que X2?

Oui, je pense que vous pourriez dire ça comme ça. La "gamme plus large de valeurs X2" pourrait résulter d'un biais de variable omis en incluant des variables importantes corrélées avec X1 mais en omettant celles qui sont corrélées avec X2.

Pourquoi le problème disparaît-il si le vrai r est exactement 0?

Le biais variable omis est encore une fois un bon exemple de la raison pour laquelle cela est valable. Les variables omises ne causent que des problèmes (ou biais) si elles sont corrélées avec les prédicteurs ainsi qu'avec le résultat, voir la formule dans l'entrée Wikipedia. Si le vrai est exactement 0, la variable n'est pas corrélée avec le résultat et il n'y a pas de problème (même s'il est corrélé avec les prédicteurs).r

Comment d'autres méthodes (par exemple en examinant les coefficients semi-partiels) résolvent-elles ce problème?

D'autres modèles tels que les coefficients semi-partiels sont confrontés au même problème. Si votre ensemble de données est suffisamment grand, vous pouvez par exemple effectuer une régression non paramétrique et essayer d'estimer la distribution conjointe complète sans hypothèses sur la forme fonctionnelle (par exemple la séparabilité additive) pour justifier ce que vous faites, mais ce n'est jamais une preuve.

En résumé, je pense qu'il peut être judicieux de comparer des coefficients standardisés ou semi-partiels, mais cela dépend et vous devez raisonner vous-même ou les autres pourquoi vous pensez que cela a du sens.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.