Une variable aléatoire binomiale avec essais et une probabilité de succès peut prendre plus de deux valeurs. La variable aléatoire binomiale représente le nombre de succès dans ces essais et peut en fait prendre valeurs différentes ( ). Donc, si la variance de cette distribution est plus grande que ce à quoi on peut s'attendre dans les hypothèses binomiales (il y a peut-être des zéros en excès par exemple), c'est un cas de surdispersion. p N N + 1 0 , 1 , 2 , 3 , . . . , NNpNN+ 10,1,2,3,...,N
La surdispersion n'a pas de sens pour une variable aléatoire de Bernoulli ( )N=1
Dans le contexte d'une courbe de régression logistique, vous pouvez considérer qu'une "petite tranche", ou un regroupement, à travers une plage étroite de valeur de prédicteur, est une réalisation d'une expérience binomiale (peut-être que nous avons 10 points dans la tranche avec un certain nombre de succès et échecs). Même si nous n'avons pas vraiment d'essais multiples pour chaque valeur de prédicteur et que nous examinons les proportions au lieu des dénombrements bruts, nous nous attendons toujours à ce que la proportion de chacune de ces «tranches» soit proche de la courbe. Si ces "tranches" ont tendance à être très éloignées de la courbe, il y a trop de variabilité dans la distribution. Ainsi, en regroupant les observations, vous créez des réalisations de variables aléatoires binomiales plutôt que de regarder les données 0/1 individuellement.
L'exemple ci-dessous provient d'une autre question sur ce site. Disons que les lignes bleues représentent la proportion attendue sur la plage des variables prédictives. Les cellules bleues indiquent les cas observés (dans ce cas, les écoles). Ceci fournit une représentation graphique de la façon dont surdispersion peut regarder. Notez qu'il y a des défauts dans l'interprétation des cellules du graphique ci-dessous, mais cela donne une idée de la façon dont la surdispersion peut se manifester.