La réponse de Gungs est à mon avis une critique de l'idée de comparer la force relative de différentes variables dans une analyse empirique sans avoir à l'esprit un modèle sur la façon dont ces variables interagissent ou à quoi ressemble la distribution (vraie) conjointe de toutes les variables pertinentes. Pensez à l'exemple de l'importance des mentions pulmonaires de la taille et du poids de l'athlète. Personne ne peut prouver que, par exemple, une régression linéaire additive est une bonne approximation de la fonction d'attente conditionnelle ou en d'autres termes, la taille et le poids peuvent être importants d'une manière très compliquée pour la performance de l'athlète. Vous pouvez exécuter une régression linéaire incluant les deux variables et comparer les coefficients standardisés mais vous ne savez pas si les résultats ont vraiment du sens.
Pour donner un exemple de Mickey Mouse, en regardant le grimpeur sportif (mes sports préférés), voici une liste des meilleurs grimpeurs masculins selon une mesure de performance prise sur le site 8a.nu avec des informations sur leur taille, leur poids et l'année de naissance (seulement ceux informations disponibles). Nous normalisons au préalable toutes les variables afin de pouvoir comparer directement l'association entre un changement d'écart type des prédicteurs et un changement d'écart type dans la distribution des performances. En excluant pour l'illustration le numéro un, Adam Ondra, qui est inhabituellement grand, nous obtenons le résultat suivant. :
rm(list=ls(all=TRUE))
# Show only two decimal places
options(digits=2)
# Read Data and attach
climber<-read.table("https://drive.google.com/uc?export=&confirm=no_antivirus&id=0B70aDwYo0zuGNGJCRHNrY0ptSW8",sep="\t",header=T)
head(climber)
# Drop best climber Adam Ondra who is very tall (kind of outlier)
climber<-subset(climber,name!="Adam Ondra")
# Standardize Predictors
climber$performance_std<-(climber$performance-mean(climber$performance))/sd(climber$performance)
climber$height_std<-(climber$height-mean(climber$height))/sd(climber$height)
climber$weight_std<-(climber$weight-mean(climber$weight))/sd(climber$weight)
climber$born_std<-(climber$born-mean(climber$born))/sd(climber$born)
# Simple Regression, excluding intercept because of the standardization
lm(performance_std~height_std+weight_std-1,data=climber)$coef
height_std weight_std
-0.16 -0.25
En ignorant les erreurs standard, etc., il semble que le poids soit plus important que la hauteur ou tout aussi important. Mais on pourrait soutenir que les grimpeurs se sont améliorés au fil du temps. Peut-être devrions-nous contrôler les effets de cohorte, par exemple les possibilités de formation grâce à de meilleures installations intérieures? Incluons l'année de naissance!
# Add year of birth
lm(performance_std~height_std+weight_std+born_std-1,data=climber)$coef
height_std weight_std born_std
-0.293 -0.076 0.256
Maintenant, nous constatons qu'être jeune et petit est plus important qu'être mince. Mais maintenant, une autre personne pourrait soutenir que cela ne vaut que pour les meilleurs grimpeurs? Il pourrait être judicieux de comparer les coefficients standardisés sur l'ensemble de la distribution des performances (par exemple via la régression quantile). Et bien sûr, cela peut différer pour les grimpeuses qui sont beaucoup plus petites et plus minces. Personne ne sait.
Ceci est un exemple de Mickey Mouse de ce à quoi je pense que le gung fait référence. Je ne suis pas si sceptique, je pense qu'il peut être judicieux d'examiner des coefficients standardisés, si vous pensez que vous avez spécifié le bon modèle ou que la séparabilité additive a du sens. Mais cela dépend aussi souvent de la question posée.
Concernant les autres questions:
Est-ce que cela équivaut à dire que nous ne devrions pas utiliser de coefficients standardisés pour évaluer l'importance, car nous aurions pu échantillonner au hasard une plage restreinte de valeurs X1 et une plage plus large de valeurs X2? Ensuite, lorsque nous normalisons ce problème n'a pas disparu, et nous finissons par penser à tort que X1 est un prédicteur plus faible que X2?
Oui, je pense que vous pourriez dire ça comme ça. La "gamme plus large de valeurs X2" pourrait résulter d'un biais de variable omis en incluant des variables importantes corrélées avec X1 mais en omettant celles qui sont corrélées avec X2.
Pourquoi le problème disparaît-il si le vrai r est exactement 0?
Le biais variable omis est encore une fois un bon exemple de la raison pour laquelle cela est valable. Les variables omises ne causent que des problèmes (ou biais) si elles sont corrélées avec les prédicteurs ainsi qu'avec le résultat, voir la formule dans l'entrée Wikipedia. Si le vrai est exactement 0, la variable n'est pas corrélée avec le résultat et il n'y a pas de problème (même s'il est corrélé avec les prédicteurs).r
Comment d'autres méthodes (par exemple en examinant les coefficients semi-partiels) résolvent-elles ce problème?
D'autres modèles tels que les coefficients semi-partiels sont confrontés au même problème. Si votre ensemble de données est suffisamment grand, vous pouvez par exemple effectuer une régression non paramétrique et essayer d'estimer la distribution conjointe complète sans hypothèses sur la forme fonctionnelle (par exemple la séparabilité additive) pour justifier ce que vous faites, mais ce n'est jamais une preuve.
En résumé, je pense qu'il peut être judicieux de comparer des coefficients standardisés ou semi-partiels, mais cela dépend et vous devez raisonner vous-même ou les autres pourquoi vous pensez que cela a du sens.