Pour répondre à la première question , considérons le modèle
Y=X+sin(X)+ε
avec iid de moyenne et nulle variance. Au fur et à mesure que la plage de (considérée comme fixe ou aléatoire) augmente, passe à 1. Néanmoins, si la variance de est faible (environ 1 ou moins), les données sont "sensiblement non linéaires". Dans les tracés, .εXR2εvar(ε)=1
Incidemment, un moyen simple d’obtenir un petit consiste à découper les variables indépendantes en plages très étroites. La régression (utilisant exactement le même modèle ) dans chaque plage aura un faible, même lorsque la régression complète basée sur toutes les données aura un élevé . Contempler cette situation est un exercice d’information et une bonne préparation à la deuxième question.R2R2R2
Les deux graphiques suivants utilisent les mêmes données. Le pour la régression complète est de 0,86. Les pour les tranches (de largeur 1/2 de -5/2 à 5/2) sont 0,16, 0,18, 0,07, 0,14, 0,08, 0,17, 0,20, 0,01, 0,01 , .00, lecture de gauche à droite. Au mieux , les ajustements s'améliorent dans la situation par tranches car les 10 lignes distinctes peuvent mieux se conformer aux données dans leurs plages étroites. Bien que les de toutes les tranches soient bien inférieures à la valeur complète , ni la force de la relation , ni la linéarité , ni aucun aspect des données (à l'exception de la plage de utilisée pour la régression) n'ont changé.R2R2R2R2X
(On pourrait objecter que cette procédure de découpage modifie la distribution de C’est vrai, mais elle correspond néanmoins à l’utilisation la plus courante de dans la modélisation à effets fixes et révèle à quel point nous parle de la variance de dans la situation à effets aléatoires, en particulier lorsque est contraint de varier dans un intervalle plus petit de son étendue naturelle, diminue généralement.)XR2R2XXR2
Le problème fondamental de est que cela dépend de trop de choses (même après ajustement en régression multiple), mais surtout de la variance des variables indépendantes et de la variance des résidus. Normalement, cela ne nous dit rien sur la "linéarité", la "force de la relation" ou même la "qualité de l'ajustement" pour comparer une séquence de modèles.R2
La plupart du temps, vous pouvez trouver une meilleure statistique que . Pour la sélection du modèle, vous pouvez consulter AIC et BIC; pour exprimer l'adéquation d'un modèle, regardez la variance des résidus. R2
Cela nous amène finalement à la deuxième question . Une situation dans laquelle pourrait avoir une certaine utilité est lorsque les variables indépendantes sont définies sur des valeurs standard, contrôlant essentiellement l’effet de leur variance. Alors, est vraiment un indicateur de la variance des résidus, convenablement normalisée.R21−R2