Stratégie pour décider du modèle approprié pour les données de comptage


16

Quelle est la stratégie appropriée pour décider quel modèle utiliser avec les données de comptage? J'ai des données de comptage que j'ai besoin de modéliser en tant que modèle à plusieurs niveaux et il m'a été recommandé (sur ce site) que la meilleure façon de le faire soit par le biais de bogues ou de MCMCglmm. Cependant, j'essaie toujours de me renseigner sur les statistiques bayésiennes, et j'ai pensé que je devrais d'abord essayer d'ajuster mes données en tant que modèles linéaires généralisés et ignorer la structure imbriquée des données (juste pour que je puisse avoir une vague idée de ce à quoi s'attendre).

Environ 70% des données sont égales à 0 et le rapport de variance à la moyenne est de 33. Les données sont donc assez dispersées.

Après avoir essayé un certain nombre d'options différentes (y compris le poisson, le modèle binomial négatif, le modèle gonflé quasi et zéro), je vois très peu de cohérence dans les résultats (varier de tout est significatif à rien est significatif).

Comment puis-je prendre une décision éclairée sur le type de modèle à choisir en fonction de l'inflation 0 et de la sur-dispersion? Par exemple, comment puis-je déduire que le quasi-poisson est plus approprié que le binôme négatif (ou vice versa) et comment puis-je savoir que l'utilisation de l'un ou l'autre a traité de manière adéquate (ou non) les zéros en excès? De même, comment puis-je évaluer qu'il n'y a plus de sur-dispersion si un modèle gonflé à zéro est utilisé? ou comment choisir entre un poisson gonflé zéro et un binôme négatif gonflé zéro?

Réponses:


9

Vous pouvez toujours comparer les modèles de comptage en regardant leurs prédictions (de préférence sur un ensemble de maintien). J. Scott Long en discute graphiquement (en traçant les valeurs prévues par rapport aux valeurs réelles). Son livre de texte décrit ici en détail, mais vous pouvez également consulter 6.4 sur ce document .

Vous pouvez comparer les modèles en utilisant AIC ou BIC et il existe également un test appelé test Voung que je ne connais pas très bien mais qui peut comparer le zéro gonflé à des modèles non imbriqués. Voici un article Sas le décrivant brièvement à la page 10 pour vous aider à démarrer. Il est également implémenté dans l' affichage R


Merci pour le conseil. Je vais certainement essayer d'examiner les prédictions avant de décider du modèle
George Michaelides

5

Quelques choses à ajouter à ce que B_Miner a dit:

1) Vous avez écrit que les modèles variaient de «tout significatif» à «rien de significatif» mais ce n'est pas un bon moyen de comparer les modèles. Regardez plutôt les valeurs prévues (comme l'a suggéré B_miner) et les tailles d'effet.

2) Si 70% des données sont 0, je ne peux pas imaginer qu'un modèle sans 0 inflation soit approprié.

3) Même si vous ne voulez pas devenir bayésien, vous pouvez utiliser des GLMM en SAS (PROC GLIMMIX ou NLMIXED) et en R (différents packages). Ignorer la nature imbriquée peut tout gâcher.

4) En général, décider quel modèle est le meilleur est un art, pas une science. Il y a des statistiques à utiliser, mais elles sont un guide de jugement. En regardant simplement ce que vous avez écrit, je dirais qu'un modèle ZINB a l'air bien


L'intention est que j'essaierai éventuellement de modéliser cela en utilisant le bayésien, mais j'essayais de comprendre comment je peux prendre une décision avant d'ajuster les modèles. S'il y a une possibilité qu'ignorer la nature imbriquée des données gâche les choses, je les essaierai d'abord les GLMM. Le seul paquet pour R que je connaisse qui puisse faire ZINB à plusieurs niveaux est glmmADMB. Recommanderiez-vous d'autres forfaits?
George Michaelides

4

D'après ce que je comprends, des distributions gonflées à zéro devraient être utilisées lorsqu'il existe une justification pour que certains éléments produisent des dénombrements de zéros par rapport à tout autre dénombrement. En d'autres termes, une distribution gonflée à zéro devrait être utilisée si les zéros sont produits par un processus distinct de celui produisant les autres dénombrements. Si vous n'avez aucune justification à cela, compte tenu de la surdispersion dans votre échantillon, je suggère d'utiliser une distribution binomiale négative car elle représente avec précision l'abondance des zéros et elle représente une hétérogénéité non observée en estimant librement ce paramètre. Comme mentionné ci-dessus, le livre de Scott Long est une excellente référence.


Merci pour votre réponse. En effet, j'ai commencé à penser si différents éléments pouvaient produire les 0 par rapport à tout autre nombre et je pense en fait qu'il y a quelques-unes de mes variables qui expliqueraient uniquement les 0 par rapport à tout autre nombre. Donc, je devrais probablement au moins essayer ZINB d'abord pour voir si mes variables fonctionnent comme je m'attendrais à ce qu'elles fonctionnent.
George Michaelides

3

absolument d'accord avec ce que Matt a dit, vous devez d'abord penser à l'arrière-plan des données ... Cela n'a aucun sens de s'adapter aux modèles ZI, lorsqu'il n'y a pas de déclencheurs générant zéro dans la population! L'avantage des modèles NB est qu'ils peuvent afficher une hétérogénéité non observée dans une variable aléatoire distribuée gamma. Techniquement: les principales raisons de la surdispersion sont l'hétérogénéité et l'inflation zéro. Je ne pense pas que votre ajustement soit mauvais. Pour obtenir la qualité de l'ajustement, vous devez toujours comparer la déviance avec les degrés de liberté de votre modèle. Si la déviance D est supérieure à n- (p + 1) (c'est df), vous devriez rechercher un meilleur modèle. Bien qu'il n'y ait généralement pas de meilleurs modèles que ZINB pour se débarrasser de la surdispersion.

si vous souhaitez adapter un ZINB avec R, récupérez le package psclet essayez d'utiliser la commande zeroinfl(<model>, dist=negative). Pour plus d'informations, voir ?zeroinflaprès le chargement du package requis!

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.