Dans les statistiques, nous faisons des régressions linéaires, leurs tout débuts. En général, nous savons que plus le élevé , mieux c'est, mais existe-t-il un scénario où un élevé serait un modèle inutile?R 2
Dans les statistiques, nous faisons des régressions linéaires, leurs tout débuts. En général, nous savons que plus le élevé , mieux c'est, mais existe-t-il un scénario où un élevé serait un modèle inutile?R 2
Réponses:
Oui. Les critères d'évaluation d'un modèle statistique dépendent du problème spécifique en question et ne sont pas une fonction mécanique de ou une signification statistique (bien qu'ils importent). La question pertinente est: "le modèle vous aide-t-il à comprendre les données?"
Le moyen le plus simple pour obtenir un élevé est de faire un équivalent de régression des chaussures droites sur les chaussures gauches. Dites-moi la taille de votre chaussure droite, et je peux prédire la taille de votre chaussure gauche avec une grande précision. Énorme ! Quel grand modèle statistique! Sauf que cela signifie caca désagréable. Vous pouvez obtenir un excellent en plaçant la même variable à gauche et à droite d'une régression, mais cette énorme régression serait presque certainement inutile.R 2 R 2 R 2
Il existe d'autres cas où l'inclusion d'une variable sur le côté droit est conceptuellement la mauvaise chose à faire (même si elle augmente ). Disons que vous essayez d'estimer si un groupe minoritaire est victime de discrimination et moins susceptible d'obtenir un emploi. Vous ne devriez pas contrôler si l'entreprise a rappelé après la candidature, car être moins susceptible de répondre aux candidatures des minorités peut être le canal par lequel la discrimination se produit! L'ajout d'un mauvais contrôle peut rendre votre régression vide de sens.
Vous pouvez toujours augmenter en ajoutant plus de régresseurs! Je peux continuer à ajouter des régresseurs sur le côté droit jusqu'à ce que j'obtienne le que j'aime. Pour prédire les revenus du travail, je pourrais ajouter des contrôles de scolarité, des contrôles d'âge, des effets fixes de trimestre, des effets fixes de code postal, des effets fixes de profession, des effets fixes d'entreprise, des effets fixes de famille, des effets fixes d'animaux domestiques, la longueur des cheveux, etc. à un moment donné, les contrôles cesser de faire sens, mais continue de monter. Tout ajouter comme régresseur est connu sous le nom de régression "évier de cuisine". Vous pouvez obtenir un élevé, mais vous pouvez surdimensionner massivement les données: votre modèle prédit parfaitement l'échantillon utilisé pour estimer le modèle (a un élevéR 2 R 2 R 2 R 2) mais le modèle estimé échoue horriblement sur les nouvelles données.
La même idée peut apparaître dans l'ajustement de courbe polynomiale. Donnez-moi des données aléatoires, et je peux probablement obtenir un excellent en ajustant un polynôme à 200 degrés. Sur de nouvelles données cependant, le polynôme estimé ne fonctionnerait pas en raison d'un surajustement. Encore une fois, un élevé pour le modèle estimé mais le modèle estimé est inutile.R 2
Le point (3-4) est la raison pour laquelle nous avons ajusté , ce qui fournit une certaine pénalité pour l'ajout de régresseurs supplémentaires, mais ajusté peut généralement encore être amélioré en surajustant les données. Il a également la caractéristique merveilleusement absurde qu'il peut devenir négatif.R 2
Je pourrais également donner des exemples où un faible est très bien (par exemple, l'estimation des bêtas dans les modèles de tarification des actifs), mais ce message est déjà assez long. Pour résumer, la question globale devrait être quelque chose comme, "sachant ce que je sais du problème et des statistiques, ce modèle m'aide-t-il à comprendre / expliquer les données?" peut être un outil pour répondre à cette question, mais ce n'est pas aussi simple que les modèles avec supérieur sont toujours meilleurs.R 2 R 2
"Plus haut c'est mieux" est une mauvaise règle de base pour le R-carré.
Don Morrison a écrit quelques articles célèbres il y a quelques années démontrant que les carrés R proches de zéro pouvaient toujours être exploitables et rentables, selon l'industrie. Par exemple, dans le marketing direct prédisant la réponse à un abonnement à un magazine, l'envoi à 10 millions de foyers, les carrés R dans les chiffres à faible chiffre peuvent produire des campagnes rentables (sur la base d'un retour sur investissement) si l'envoi est basé sur les 2 ou 3 déciles supérieurs de réponse probabilité.
Un autre sociologue (dont le nom m'échappe) a segmenté les carrés R par type de données, notant que dans la recherche par sondage, les carrés R dans la plage de 10 à 20% étaient la norme, tandis que pour les données d'entreprise, les carrés R dans la plage de 40 à 60% étaient à prévoir. Ils ont ensuite remarqué que les carrés R de 80 à 90% ou plus étaient probablement en violation des hypothèses de régression fondamentales. Cependant, cet auteur n'avait aucune expérience du marketing mix, des données de séries chronologiques ou des modèles contenant un ensemble complet de caractéristiques "causales" (par exemple, les 4 "Ps" classiques de prix, de promotion, de lieu et de produit) qui peuvent et vont produire R- carrés approchant 100%.
Cela dit, même judicieuses, des règles empiriques de référence telles que celles-ci ne sont pas très utiles pour les analphabètes techniques dont la première question sur un modèle prédictif sera toujours: "Quel est le carré R?"
Les autres réponses offrent de grandes explications théoriques sur les nombreuses façons dont les valeurs R au carré peuvent être fixées / truquées / trompeuses / etc. Voici une démonstration pratique qui m'a toujours collé, codée en r
:
y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))
Cela peut fournir des valeurs R au carré> 0,90. Ajoutez suffisamment de régresseurs et même des valeurs aléatoires peuvent «prédire» des valeurs aléatoires.
set.seed(1)
et set.seed(2)
.