Examinons la figure suivante tirée de Modèles linéaires avec R de Faraway (2005, p. 59).
Le premier graphique semble indiquer que les valeurs résiduelles et ajustées ne sont pas corrélées, car elles devraient figurer dans un modèle linéaire homoscédastique avec des erreurs distribuées normalement. Par conséquent, les deuxième et troisième graphiques, qui semblent indiquer une dépendance entre les valeurs résiduelles et les valeurs ajustées, suggèrent un modèle différent.
Mais pourquoi le second graphique suggère-t-il, comme le note si loin, un modèle linéaire hétéroscédastique, alors que le troisième graphique suggère un modèle non linéaire?
Le deuxième graphique semble indiquer que la valeur absolue des résidus est fortement corrélée positivement aux valeurs ajustées, alors qu'une telle tendance n'est pas évidente dans le troisième graphique. Donc, si c’était le cas, théoriquement, dans un modèle linéaire hétéroscédastique avec des erreurs distribuées normalement
(où l'expression à gauche est la matrice de variance-covariance entre les valeurs résiduelles et les valeurs ajustées), cela expliquerait pourquoi les deuxième et troisième parcelles concordent avec les interprétations de Faraway.
Mais est-ce le cas? Sinon, comment pourrait-on justifier les interprétations de Lara des deuxième et troisième parcelles? Aussi, pourquoi le troisième graphique indique-t-il nécessairement une non-linéarité? N'est-il pas possible qu'il soit linéaire, mais que les erreurs ne sont pas normalement distribuées ou qu'elles sont normalement distribuées, mais ne se centrent pas autour de zéro?