Comment puis-je utiliser la valeur de

Les graphiques ci-dessous sont des diagrammes de dispersion résiduels d'un test de régression pour lesquels les hypothèses de "normalité", "homoscédasticité" et "indépendance" ont déjà été vérifiées à coup sûr! Pour tester l' hypothèse de «linéarité» , bien que, en regardant les graphiques, on puisse deviner que la relation est curviligne, mais la question est: comment la valeur de «R2 linéaire» peut-elle être utilisée pour tester l'hypothèse de linéarité? Quelle est la plage acceptable pour la valeur de "R2 linéaire" pour décider si la relation est linéaire? Que faire lorsque l'hypothèse de linéarité n'est pas remplie et que la transformation des IV n'aide pas non plus? !!

Voici le lien vers les résultats complets du test.

Diagrammes de dispersion:

entrez la description de l'image ici

— Cyrus
source

Je vois par l'apparence des graphiques que vous utilisez SPSS. Il suffit d'ouvrir le graphique pour modifier et de trouver "Ajouter un bouton d'ajustement de ligne", vous y trouverez des options de dessin de ligne non linéaire , par exemple Loess. Vérifiez si cette option vous donne une ligne raisonnablement droite.

— ttnphns

@ ttnphns: J'ai ajouté l'intrigue avec la ligne Loess 2 à la question.

— Cyrus

Eh bien, cela semble assez curviligne, n'est-ce pas? Vous pouvez jouer davantage avec les paramètres Loess pour voir ce qui se passe. Si la ligne est courbe, vous pouvez conclure visuellement que la relation n'est pas linéaire.

— ttnphns

@Cyrus, j'ai posté une réponse générale à cette question, mais j'allais ajouter un peu d'interprétation sur vos graphiques et je me suis rendu compte que je ne savais pas trop quels étaient les axes

dans votre graphique - pouvez-vous clarifier?

x

$x$

y

$y$

— Macro

@ ttnphns: oui, c'est curviligne. Je ne sais pas comment traiter ce modèle! Dans ce test (# 2), j'ai 2 IVs qui affectent directement le DV (PIT). Le résultat de la régression a montré que seulement 1 des IV a un effet significatif sur la DV. Le R2 est si faible (0,172) et la linéarité est également faible (au moins, selon le graphique, lorsque le IV est à de faibles niveaux). Je ne sais pas si ce test est acceptable ou non! Même moi, j'ai transformé les deux IV (en calculant leur LN) et relancé la régression, mais le résultat est encore pire!

— Cyrus

Réponses:

Notez que l'hypothèse de linéarité dont vous parlez ne fait que dire que la moyenne conditionnelle de étant donné est une fonction linéaire $Y_i$ $X_i$ . Vous ne pouvez pas utiliser la valeur de pour tester cette hypothèse. $R^2$

En effet, est simplement la corrélation au carré entre les valeurs observées et prédites et la valeur du coefficient de corrélation ne détermine pas uniquement la relation entre et (linéaire ou autre) et les deux scénarios suivants sont possibles: $R^2$ $X$ $Y$

élevé mais l'hypothèse de linéarité est toujours erronée d'une manière importante $R^2$
Faible mais l'hypothèse de linéarité toujours satisfaite $R^2$

J'examinerai chacun à son tour:

(1) élevé, mais l'hypothèse de linéarité est toujours erronée d'une manière importante: $R^2$ l'astuce consiste à manipuler le fait que la corrélation est très sensible aux valeurs aberrantes . Supposons que vous ayez prédicteurs qui sont générés à partir d'une distribution de mélange qui est normale normale dans du temps et d'une masse ponctuelle à les autres et d'une variable de réponse qui est $X_1, ..., X_n$ $99\%$ $M$ $1\%$

Y_{i} = {\begin{cases} Z_{i} & i f X_{i} \neq M \\ M & i f X_{i} = M \end{cases}

$Y_i = \begin{cases} Z_i & {\rm if \ } X_i \neq M \\ M & {\rm if \ } X_i = M \\ \end{cases}$

où et est une constante positive beaucoup plus grande que , par exemple . Alors et seront presque parfaitement corrélés: $Z_i \sim N(\mu,1)$ $M$ $\mu$ $\mu=0, M=10^5$ $X_i$ $Y_i$

u = runif(1e4)>.99
x = rnorm(1e4)
x[which(u==1)] = 1e5
y = rnorm(1e4)
y[which(x==1e5)] = 1e5
cor(x,y)
[1] 1

malgré le fait que la valeur attendue de donnée est non linéaire - en fait , il est fonction de l' étape discontinue et la valeur attendue de ne dépend même pas sur sauf lorsque . $Y_i$ $X_i$ $Y_i$ $X_i$ $X_i = M$

(2) faible mais l'hypothèse de linéarité toujours satisfaite: $R^2$ l'astuce consiste ici à augmenter la quantité de «bruit» autour de la tendance linéaire. Supposons que vous ayez un prédicteur et une réponse et le modèle $X_i$ $Y_i$

Y_{i} = β_{0} + β_{1} X_{i} + ε_{i}

$Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i$

était le bon modèle. Par conséquent, la moyenne conditionnelle de étant donné est une fonction linéaire de , donc l'hypothèse de linéarité est satisfaite. Si est grand par rapport à alors sera petit. Par exemple, $Y_i$ $X_i$ $X_i$ ${\rm var}(\varepsilon_i) = \sigma^2$ $\beta_1$ $R^2$

x = rnorm(200)
y = 1 + 2*x + rnorm(200,sd=5)
cor(x,y)^2
[1] 0.1125698

Par conséquent, l' évaluation de l'hypothèse de linéarité ne consiste pas à voir si se situe dans une plage tolérable $R^2$ , mais il s'agit plutôt d'examiner les diagrammes de dispersion entre les prédicteurs / valeurs prédites et la réponse et de prendre une décision (peut-être subjective).

Re: Que faire lorsque l'hypothèse de linéarité n'est pas remplie et que la transformation des IV n'aide pas non plus? !!

Lorsque la non-linéarité est un problème, il peut être utile d'examiner les graphiques des résidus par rapport à chaque prédicteur - s'il y a un modèle notable, cela peut indiquer une non-linéarité dans ce prédicteur. Par exemple, si ce graphique révèle une relation "en forme de bol" entre les résidus et le prédicteur, cela peut indiquer un terme quadratique manquant dans ce prédicteur. D'autres modèles peuvent indiquer une forme fonctionnelle différente. Dans certains cas, il se peut que vous n'ayez pas essayé de redresser la transformation ou que le vrai modèle ne soit linéaire dans aucune version transformée des variables (bien qu'il soit possible de trouver une approximation raisonnable).

$R^2$

— Macro
source

$R^2=1$ $1$ $R^2$ $R^2$ $^2$ $1<x<2$ $R^2$ $R^2$

— Michael R. Chernick
source

Merci Michael. La taille de mon échantillon est de 302. J'apprécierais que vous puissiez consulter les résultats du test ici et voir s'il est plausible et tenable de faire rapport. TQ

— Cyrus

@Cyrus C'est difficile. Les résidus semblent correspondre très bien à la normale et il n'y a rien que je puisse voir qui serait mal avec la régression linéaire. Vous avez une quantité décente de données. Le carré R est faible car la composante de bruit aléatoire est importante. Le tracé LOESS montre une certaine courbure aux valeurs inférieures de la variable indépendante. Mais je ne trouve pas cela convaincant. Je pense que cela pourrait bien être linéaire et cela montre pourquoi le carré R n'est pas un bon indicateur dans ce cas.

— Michael R. Chernick

Tq Michael :) Oui, c'est vraiment déroutant! Toutes les hypothèses sont parfaitement remplies mais linéarité! Comme vous pouvez le voir dans le premier graphique ci-dessus, le R2 quadratique (0,199) est plus grand que le R2 linéaire (0,172), ce qui signifie qu'il peut mieux prédire le modèle. En fait, quand j'ai fait une régression quadratique (en ajoutant SC2), le nuage de points dans le résultat était si hétéroscédatique! Je suis tellement confus! Je ne sais pas quoi faire avec ce modèle! Son seul problème est sa faible linéarité. Je ne sais pas comment justifier la linéarité si je mets le nuage de points dans mon rapport. La régression quadratique échoue également à respecter l'hypothèse d'homogénéité. Aide

— Cyrus

Je ne pense pas que cela laisse perplexe. Cela semble assez linéaire. Il y a beaucoup de variabilité, c'est pourquoi le carré R est faible. Je pense que la seule façon de réduire la variabilité serait de trouver une autre variable explicative.

— Michael R. Chernick