La distribution normale ne permet-elle pas des valeurs négatives?
Correct. Il n'a pas non plus de limite supérieure.
Dans une partie de mon manuel, il est dit qu'une distribution normale pourrait être bonne pour modéliser les scores aux examens.
Malgré les déclarations précédentes, c'est pourtant parfois le cas. Si vous avez de nombreux composants à tester, pas trop étroitement liés (par exemple, vous n'êtes pas essentiellement la même question une douzaine de fois, ni que chaque partie nécessite une réponse correcte à la partie précédente), et pas très facile ni très difficile ( de sorte que la plupart des marques se situent quelque part près du milieu), alors les marques peuvent souvent être raisonnablement bien approximées par une distribution normale; souvent suffisamment bien pour que les analyses typiques ne suscitent que peu de préoccupations.
Nous savons avec certitude qu'elles ne sont pas normales , mais ce n'est pas automatiquement un problème - tant que le comportement des procédures que nous utilisons est suffisamment proche de ce qu'elles devraient être pour nos besoins (par exemple, erreurs standard, intervalles de confiance, niveaux de signification). et le pouvoir - selon les besoins - faire près de ce que nous attendons d'eux)
Dans la partie suivante, il demande quelle distribution serait appropriée pour modéliser une réclamation d'assurance automobile. Cette fois, il a dit que les distributions appropriées seraient Gamma ou Gaussienne inverse car elles sont continues avec uniquement des valeurs positives.
Oui, mais plus que cela - ils ont tendance à être fortement asymétriques à droite et la variabilité a tendance à augmenter lorsque la moyenne augmente.
Voici un exemple de répartition de la taille des revendications pour les réclamations relatives aux véhicules:
https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg
(Fig 5 de Garrido, Genest & Schulz (2016) "Modèles linéaires généralisés pour la fréquence et la gravité des réclamations d'assurance", Insurance: Mathematics and Economics, Vol 70, Sept., p205-215. Https : //www.sciencedirect. com / science / article / pii / S0167668715303358 )
Cela montre une asymétrie droite typique et une queue droite lourde. Cependant, nous devons être très prudents car il s'agit d'une distribution marginale, et nous écrivons un modèle pour la distribution conditionnelle , qui sera généralement beaucoup moins asymétrique (la distribution marginale que nous examinons si nous ne faisons qu'un histogramme des tailles des revendications étant un mélange de ces distributions conditionnelles). Néanmoins, il est généralement vrai que si nous examinons la taille des revendications dans des sous-groupes de prédicteurs (classant peut-être les variables continues), la distribution est toujours fortement asymétrique à droite et assez lourde à droite, ce qui suggère que quelque chose comme un modèle gamma * est probablement plus approprié qu’un modèle gaussien.
* il peut y avoir un certain nombre d'autres distributions qui seraient plus appropriées qu'un gaussien - le gaussien inverse est un autre choix - bien que moins courant; Les modèles lognormaux ou Weibull, bien qu'ils ne soient pas des GLM en l'état, peuvent également être très utiles.
[Il est rare que l'une de ces distributions soit une description presque parfaite; ce sont des approximations inexactes, mais dans de nombreux cas, suffisamment bonnes pour que l'analyse soit utile et se rapproche des propriétés souhaitées.]
Eh bien, je crois que les résultats aux examens seraient également continus avec uniquement des valeurs positives, alors pourquoi utiliserions-nous une distribution normale?
Parce que (dans les conditions que j'ai mentionnées précédemment - beaucoup de composants, pas trop dépendants, pas trop durs ou faciles), la distribution a tendance à être assez proche de symétrique, unimodale et pas lourde.