Je suis un peu confus quant aux hypothèses de régression linéaire.
Jusqu'à présent, j'ai vérifié si:
- toutes les variables explicatives étaient corrélées linéairement avec la variable de réponse. (C'était le cas)
- il y avait une colinéarité entre les variables explicatives. (il y avait peu de colinéarité).
- les distances Cook des points de données de mon modèle sont inférieures à 1 (c'est le cas, toutes les distances sont inférieures à 0,4, donc pas de points d'influence).
- les résidus sont normalement distribués. (Cela peut ne pas être le cas)
Mais j'ai ensuite lu ce qui suit:
les violations de la normalité surviennent souvent soit parce que (a) les distributions des variables dépendantes et / ou indépendantes sont elles-mêmes significativement non normales, et / ou (b) l'hypothèse de linéarité est violée.
Question 1 Cela donne l'impression que les variables indépendantes et dépendantes doivent être distribuées normalement, mais pour autant que je sache, ce n'est pas le cas. Ma variable dépendante ainsi que l'une de mes variables indépendantes ne sont pas normalement distribuées. Devraient-ils l'être?
Question 2 Mon tracé QQnormal des résidus ressemble à ceci:
Cela diffère légèrement d'une distribution normale et shapiro.test
rejette également l'hypothèse nulle selon laquelle les résidus proviennent d'une distribution normale:
> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06
Les valeurs résiduelles vs ajustées ressemblent à:
Que puis-je faire si mes résidus ne sont pas normalement distribués? Est-ce à dire que le modèle linéaire est totalement inutile?