J'assiste à un cours d'analyse de données et certaines de mes idées bien ancrées sont ébranlées. À savoir, l'idée que l'erreur (epsilon), ainsi que toute autre sorte de variance, ne s'applique (donc je pensais) qu'à un groupe (un échantillon ou une population entière). Maintenant, on nous apprend que l'une des hypothèses de régression est que la variance est "la même pour tous les individus". C'est en quelque sorte choquant pour moi. J'ai toujours pensé que c'était la variance de Y entre toutes les valeurs de X qui était supposée constante.
J'ai eu une conversation avec le prof, qui m'a dit que lorsque nous faisons une régression, nous supposons que notre modèle est vrai. Et je pense que c'est la partie délicate. Pour moi, le terme d'erreur (epsilon) signifiait toujours quelque chose comme "tous les éléments que nous ne connaissons pas et qui pourraient affecter notre variable de résultat, plus une erreur de mesure". Dans la façon dont la classe est enseignée, il n'y a rien de tel que «d'autres choses»; notre modèle est supposé être vrai et complet. Cela signifie que toute variation résiduelle doit être considérée comme le produit d'une erreur de mesure (ainsi, la mesure d'un individu 20 fois devrait produire la même variance que la mesure de 20 individus une fois).
Je sens que quelque chose ne va pas quelque part, j'aimerais avoir une opinion d'expert à ce sujet ... Y a-t-il une marge d'interprétation quant au terme d'erreur, conceptuellement parlant?