De votre question précédente, vous avez appris que GLM est décrit en termes de distribution de probabilité, de prédicteur linéaire et de fonction de lien et est décrit commegηg
ηE( O| X)= Xβ= μ = g- 1( η)
où est une fonction de lien logit et est supposé suivre une distribution de BernoulliYgOui
Ouije∼ B( μje)
chaque suit la distribution Bernoulli avec son propre moyen qui est conditionnelle à . Nous ne supposons pas que chaque provient de la même distribution, avec la même moyenne (ce serait le modèle d'interception uniquement ), mais qu'ils ont tous des moyennes différentes. Nous supposons que les sont indépendants , c'est-à-dire que nous n'avons pas à nous soucier de choses telles que l'autocorrélation entre les valeurs suivantes , etc.μ i X Y i Y i = g - 1 ( μ ) Y i Y iOuije μjeXOuijeOuije= g- 1( μ )OuijeOuije
L' hypothèse iid est liée aux erreurs de régression linéaire (c.-à-d. GLM gaussien), où le modèle est
yje= β0+ β1Xje+ εje= μje+ εje
où , nous avons donc un bruit iid autour de . C'est pourquoi nous nous intéressons au diagnostic des résidus et prêtons attention aux parcelles résiduelles vs ajustées . Maintenant, dans le cas d'une régression logistique similaire à GLM, ce n'est pas si simple car il n'y a pas de terme de bruit additif comme avec le modèle gaussien (voir ici , ici et ici ). Nous voulons toujours que les résidus soient "aléatoires" autour de zéro et nous ne voulons pas voir de tendances dans ceux-ci car ils suggèrent qu'il y a des effets qui ne sont pas pris en compte dans le modèle, mais nous ne supposons pas qu'ils le sont normal et / ouμ iεje∼ N( 0 , σ2)μjeiid . Voir aussi Sur l'importance de l'hypothèse iid dans le fil d' apprentissage statistique .
En guise de note, notons que nous pouvons même abandonner l'hypothèse que chaque provient du même type de distribution. Il existe des modèles (non GLM) qui supposent que différents peuvent avoir des distributions différentes avec des paramètres différents, c'est-à-dire que vos données proviennent d'un mélange de distributions différentes . Dans ce cas, nous supposerions également que les valeurs sont indépendantes , car les valeurs dépendantes, provenant de distributions différentes avec des paramètres différents (c'est-à-dire des données du monde réel typiques) sont quelque chose qui dans la plupart des cas serait trop compliqué à modéliser (souvent impossible).Y i Y iOuijeOuijeOuije