'Y doit être normalement distribué'
doit?
Dans les cas que vous mentionnez, il s'agit d'un langage bâclé (en abrégé "l'erreur dans Y doit être distribuée normalement" ), mais ils ne disent pas (fortement) que la réponse doit être distribuée normalement, ou du moins ne semble pas moi que leurs mots étaient destinés comme ça.
Le matériel de cours de Penn State
parle de "une variable continue Y " , mais aussi de " Yi " comme dans E(Yi)=β0+β1xi
où nous pourrions considérer Yi , qui s'appelle amoeba dans les commentaires 'conditionnel', normalement distribué,
Yi∼N(β0+β1xi,σ2)
L'article utilise Y et Yi manière interchangeable. Tout au long de l'article, on parle de la «distribution de Y», par exemple:
cependant, à un autre moment, ils se réfèrent également à Yi au lieu de Y :
La variable dépendante Yi n'a PAS besoin d'être distribuée normalement, mais elle suppose généralement une distribution d'une famille exponentielle (par exemple binomiale, Poisson, multinomiale, normale, ...)
La page web de statisticssolutions
est une description extrêmement brève, simplifiée et stylisée. Je ne suis pas sûr que vous deviez prendre cela au sérieux. Par exemple, il parle de
..nécessite que toutes les variables soient multivariées normales ...
donc ce n'est pas seulement la variable de réponse,
et le descripteur 'multivarié' est également vague. Je ne sais pas trop comment interpréter cela.
L'article de Wikipédia
a un contexte supplémentaire expliqué entre parenthèses:
La régression linéaire ordinaire prédit la valeur attendue d'une quantité inconnue donnée (la variable de réponse, une variable aléatoire) sous la forme d' une combinaison linéaire d'un ensemble de valeurs observées (prédicteurs) . Cela implique qu'un changement constant dans un prédicteur entraîne un changement constant dans la variable de réponse (c'est-à-dire un modèle à réponse linéaire). Ceci est approprié lorsque la variable de réponse a une distribution normale (intuitivement, lorsqu'une variable de réponse peut varier essentiellement indéfiniment dans les deux sens sans "valeur zéro" fixe, ou plus généralement pour toute quantité ne variant que relativement peu, p. Ex. hauteurs).
y+ϵϵ∼N(0,σ)
La ligne particulière a été ajoutée le 8 mars 2012 , mais notez que la première ligne de l'article de Wikipédia mentionne toujours "une généralisation flexible de la régression linéaire ordinaire qui permet aux variables de réponse qui ont des modèles de distribution d'erreur autres qu'une distribution normale" et qui ne sont pas utilisées. tellement (pas partout) faux.
Conclusion
Donc, sur la base de ces trois exemples (qui pourraient en effet générer des idées fausses, ou du moins pourraient être mal comprises), je ne dirais pas que "cette idée fausse s'est répandue" . Ou du moins, il ne me semble pas que l'intention de ces trois exemples soit de faire valoir que Y doit être normalement distribué (bien que je me souvienne que cette question s'est déjà posée ici sur stackexchange, l'échange entre les erreurs normalement distribuées et la variable de réponse normalement distribuée est facile à faire).
Ainsi, l'hypothèse selon laquelle "Y doit être normalement distribué" ne me semble pas être une croyance répandue / une idée fausse (comme dans quelque chose qui se propage comme un fouillis rouge), mais plutôt une erreur commune (qui ne se propage pas, mais est faite indépendamment à chaque fois ).
Commentaire additionnel
Un exemple d'erreur sur ce site est dans la question suivante
Que se passe-t-il si les résidus sont normalement distribués, mais que y ne le soit pas?
Je considérerais cela comme une question de débutant. Il n'est pas présent dans les documents tels que le matériel de cours de Penn State, le site Web Wikipedia, et a récemment mentionné dans les commentaires le livre 'Extension de la régression linéaire avec R'.
Les auteurs de ces œuvres comprennent bien le matériel. En effet, ils utilisent des phrases telles que "Y doit être normalement distribué", mais en fonction du contexte et des formules utilisées, vous pouvez voir qu'ils signifient tous "Y, conditionnel à X, doit être normalement distribué" et non "le Y marginal doit être normalement distribué '. Ils ne comprennent pas mal l’idée eux-mêmes, et au moins l’idée n’est pas répandue parmi les statisticiens et les personnes qui écrivent des livres et d’autres supports de cours. Mais mal interpréter leurs paroles ambiguës peut en effet être à l’origine de l’idée fausse.