Bien qu'il s'agisse de ma propre question, je vais également publier ma propre réponse de deux cents, afin que nous ajoutions au nombre de perspectives sur cette question. La question ici est de savoir s'il est judicieux d'adapter initialement une distribution à un paramètre aux données. Lorsque vous utilisez une distribution à un paramètre (comme le GLM de Poisson ou un GLM binomial avec un paramètre d'essai fixe), la variance n'est pas un paramètre libre et est plutôt contrainte d'être une fonction de la moyenne. Cela signifie qu'il est déconseillé d'adapter une distribution à un paramètre aux données dans toute situation où vous n'êtes pas absolument sûr que la variance suit la structure de cette distribution.
Ajuster des distributions à un paramètre aux données est presque toujours une mauvaise idée: les données sont souvent plus compliquées que les modèles proposés ne l'indiquent, et même lorsqu'il existe des raisons théoriques de croire qu'un modèle à un paramètre particulier peut obtenir, il arrive souvent que les données proviennent en fait d'un mélange de cette distribution à un paramètre, avec une plage de valeurs de paramètres. Cela équivaut souvent à un modèle plus large, comme une distribution à deux paramètres qui permet une plus grande liberté pour la variance. Comme expliqué ci-dessous, cela est vrai pour le GLM de Poisson dans le cas des données de comptage.
Comme indiqué dans la question, dans la plupart des applications des statistiques, il est courant d'utiliser des formes de distribution qui permettent au moins aux deux premiers moments de varier librement. Cela garantit que le modèle ajusté permet aux données de dicter la moyenne et la variance inférées, plutôt que de les contraindre artificiellement par le modèle. Le fait d'avoir ce deuxième paramètre ne perd qu'un degré de liberté dans le modèle, ce qui est une perte minime par rapport à l'avantage de permettre d'estimer la variance à partir des données. On peut bien entendu étendre ce raisonnement et ajouter un troisième paramètre pour permettre l'ajustement de l'asymétrie, un quatrième pour permettre l'ajustement du kurtosis, etc.
À quelques exceptions extrêmement mineures, un GLM de Poisson est un mauvais modèle: D'après mon expérience, l'ajustement d'une distribution de Poisson pour compter les données est presque toujours une mauvaise idée. Pour les données de dénombrement, il est extrêmement courant que la variance des données soit «sur-dispersée» par rapport à la distribution de Poisson. Même dans les situations où la théorie pointe vers une distribution de Poisson, le meilleur modèle est souvent un mélange de distributions de Poisson, où la variance devient un paramètre libre. En effet, dans le cas des données de comptage, la distribution binomiale négative est un mélange de Poisson avec une distribution gamma pour le paramètre de taux, donc même quand il y a des raisons théoriques de penser que les dénombrements arrivent selon le processus d'une distribution de Poisson, il arrive souvent qu'il y ait `` sur-dispersion '' et la distribution binomiale négative s'adapte beaucoup mieux.
La pratique d'ajuster un GLM de Poisson pour compter les données, puis de faire un test statistique pour vérifier la «sur-dispersion» est un anachronisme, et ce n'est presque jamais une bonne pratique. Dans d'autres formes d'analyse statistique, nous ne partons pas d'une distribution à deux paramètres, choisissons arbitrairement une restriction de variance, puis testons cette restriction pour essayer d'éliminer un paramètre de la distribution. En faisant les choses de cette façon, nous créons en fait une procédure hybride maladroite, consistant en un test d'hypothèse initial utilisé pour la sélection du modèle, puis le modèle réel (soit Poisson, soit une distribution plus large). Il a été démontré dans de nombreux contextes que ce type de pratique de création de modèles hybrides à partir d'un test de sélection de modèle initial conduit à de mauvais modèles globaux.
Une situation analogue, où une méthode hybride similaire a été utilisée, est dans les tests T de différence moyenne. Auparavant, les cours de statistique recommandaient d'abord d'utiliser le test de Levene (ou même juste quelques "règles empiriques" beaucoup plus fous) pour vérifier l'égalité des variances entre deux populations, puis si les données "réussissaient" ce test, vous le feriez utilisez le test T de Student qui suppose une variance égale, et si les données "échouaient" au test, vous utiliseriez plutôt le test T de Welch. C'est en fait une très mauvaise procédure (voir par exemple ici et ici). Il vaut bien mieux utiliser ce dernier test, qui ne fait aucune hypothèse sur la variance, plutôt que de créer un test composé maladroit qui embrouille un test d'hypothèse préliminaire et l'utilise ensuite pour choisir le modèle.
Pour les données de comptage, vous obtiendrez généralement de bons résultats initiaux en ajustant un modèle à deux paramètres tel qu'un modèle binomial négatif ou quasi-Poisson. (Notez que ce dernier n'est pas une distribution réelle, mais il donne toujours un modèle raisonnable à deux paramètres.) Si une généralisation supplémentaire est nécessaire, c'est généralement l'ajout d'une inflation zéro, où il y a un nombre excessif de zéros dans les données. Restreindre à un GLM de Poisson est un choix de modèle artificiel et insensé, et cela n'est pas beaucoup amélioré en testant la sur-dispersion.
Bon, voici maintenant les exceptions mineures: Les seules vraies exceptions à ce qui précède sont deux situations:
(1) Vous avez des raisons théoriques a priori extrêmement fortes de croire que les hypothèses pour la distribution d'un paramètre sont satisfaites, et une partie de l'analyse consiste à tester ce modèle théorique par rapport aux données; ou
(2) Pour une autre raison (étrange), le but de votre analyse est de mener un test d'hypothèse sur la variance des données, et donc vous voulez réellement limiter cette variance à cette restriction hypothétique, puis tester cette hypothèse.
Ces situations sont très rares. Ils ne surviennent que lorsqu'il existe de solides connaissances théoriques a priori sur le mécanisme de génération de données, et le but de l'analyse est de tester cette théorie sous-jacente. Cela peut être le cas dans une gamme extrêmement limitée d'applications où les données sont générées dans des conditions strictement contrôlées (par exemple, en physique).