Rien ne vous empêche d'utiliser la régression linéaire sur les deux colonnes de nombres que vous aimez. Il y a des moments où cela pourrait même être un choix tout à fait sensé.
Cependant, les propriétés de ce que vous sortez ne seront pas nécessairement utiles (par exemple, ne seront pas nécessairement tout ce que vous voudriez qu'elles soient).
Généralement, avec la régression, vous essayez d'ajuster une relation entre la moyenne conditionnelle de Y et le prédicteur - c'est-à-dire des relations d'ajustement d'une forme ; modélisation sans doute le comportement de l'espérance conditionnelle est ce que « régression » est . [La régression linéaire consiste à prendre une forme particulière pour g ]E(Y|x)=g(x)g
Par exemple, considérons des cas extrêmes de discrétion, une variable de réponse dont la distribution est à 0 ou 1 et qui prend la valeur 1 avec une probabilité qui change à mesure que certains prédicteurs ( ) changent. Soit E ( Y | x ) = P ( Y = 1 | X = x ) .xE(Y|x)=P(Y=1|X=x)
Si vous ajustez ce type de relation avec un modèle de régression linéaire, à part un intervalle étroit, il prédira des valeurs pour qui sont impossibles - soit en dessous de 0, soit au-dessus de 1 :E(Y)01
En effet, il est également possible de voir qu'à mesure que l'attente approche des limites, les valeurs doivent de plus en plus fréquemment prendre la valeur à cette frontière, de sorte que sa variance devient plus petite que si l'attente était proche du milieu - la variance doit diminuer à 0 Ainsi, une régression ordinaire se trompe de pondération, sous-pondérant les données dans la région où l'espérance conditionnelle est proche de 0 ou 1. Des effets SImilar se produisent si vous avez une variable limitée entre a et b, disons (comme chaque observation étant un décompte discret). sur un total possible connu pour cette observation)
De plus, nous nous attendons normalement à ce que la moyenne conditionnelle asymptote vers les limites supérieure et inférieure, ce qui signifie que la relation serait normalement courbe, et non droite, de sorte que notre régression linéaire se trompe probablement dans la plage des données également.
Des problèmes similaires se produisent avec des données qui ne sont limitées que d'un côté (par exemple, les comptes qui n'ont pas de limite supérieure) lorsque vous êtes près de cette limite.
Il est possible (si rare) d'avoir des données discrètes qui ne sont limitées à aucune extrémité; si la variable prend beaucoup de valeurs différentes, la discrétion peut être relativement peu importante tant que la description du modèle de la moyenne et de la variance est raisonnable.
Voici un exemple sur lequel il serait tout à fait raisonnable d'utiliser la régression linéaire sur:
Même si dans toute mince bande de valeurs x, il n'y a que quelques valeurs y différentes qui sont susceptibles d'être observées (peut-être autour de 10 pour les intervalles de largeur 1), l'attente peut être bien estimée, et même les erreurs standard et p- les valeurs et les intervalles de confiance seront tous plus ou moins raisonnables dans ce cas particulier. Les intervalles de prédiction auront tendance à fonctionner un peu moins bien (car la non-normalité aura tendance à avoir un impact plus direct dans ce cas)
-
Si vous souhaitez effectuer des tests d'hypothèse ou calculer des intervalles de confiance ou de prédiction, les procédures habituelles supposent la normalité. Dans certaines circonstances, cela peut être important. Cependant, il est possible d'inférer sans faire cette hypothèse particulière.