Test d'hypothèse sur données continues gonflées à zéro

J'apprécierais grandement vos conseils sur le problème suivant:

J'ai un grand ensemble de données continu avec beaucoup de zéros (~ 95%) et je dois trouver la meilleure façon de tester si certains sous-ensembles sont "intéressants", c'est-à-dire qu'ils ne semblent pas provenir de la même distribution que le reste. L'inflation nulle vient du fait que chaque point de données est basé sur une mesure de comptage avec des zéros réels et d'échantillonnage, mais le résultat est continu car il prend en compte d'autres paramètres pondérés par le comptage (et donc si le comptage est nul, le résultat est également nul).

Quelle serait la meilleure façon de faire cela? J'ai le sentiment que Wilcoxon et même les tests de permutation par force brute sont inadéquats car ils sont biaisés par ces zéros. La focalisation sur des mesures non nulles supprime également les vrais zéros qui sont extrêmement importants. Les modèles zéro gonflés pour les données de comptage sont bien développés, mais ne conviennent pas à mon cas.

J'ai envisagé d'adapter une distribution Tweedie aux données, puis d'adapter un glm sur response = f (subset_label). Théoriquement, cela semble faisable, mais je me demande si (a) c'est exagéré et (b) supposerait toujours implicitement que tous les zéros sont des échantillons de zéros, c'est-à-dire seraient biaisés de la même manière (au mieux) qu'une permutation?

Intuitivement, cela ressemble à une sorte de conception hiérarchique qui combine une statistique binomiale basée sur la proportion de zéros et, par exemple, une statistique de Wilcoxon calculée sur des valeurs non nulles (ou, mieux encore, des valeurs non nulles complétées par une fraction de zéros basés sur certains précédents). Cela ressemble à un réseau bayésien ...

J'espère que je ne suis pas le premier à avoir ce problème, donc je serais très reconnaissant si vous pouviez me diriger vers les techniques existantes appropriées ...

Merci beaucoup!

hypothesis-testing

— a11msp
source

Mettre à jour. Jusqu'à présent, j'ai trouvé cet article traitant d'un problème similaire au mien: maths.otago.ac.nz/home/downloads/david_fletcher/…

— a11msp

Je me demande si cette approximation extrêmement simplifiée aurait du sens, étant donné que les zéros forment la majorité absolue: 1) trouver la proportion de zéros dans chaque sous-ensemble. 2) supposons que dans le sous-ensemble avec le plus petit nombre de zéros, tous les zéros sont vrais. 3) de chaque sous-ensemble, supprimez la proportion de zéros égale à la proportion de zéros dans l'ensemble de données le plus «riche en zéro». 4) exécuter des statistiques non paramétriques standard sur cet ensemble de données modifié.

— a11msp

Le lien hypertexte vers l'article dans votre premier commentaire semble être mort. Pouvez-vous fournir une citation à la place?

— coip

Merci de l'avoir signalé: doi.org/10.1007/s10651-005-6817-1

— a11msp

Réponses:

@msp, je pense que vous regardez un modèle en deux étapes dans cette pièce jointe (je n'ai pas eu le temps de le lire), mais zéro données continues gonflées est le type avec lequel je travaille beaucoup. Pour adapter un modèle paramétrique à ces données (pour permettre des tests d'hypothèses), vous pouvez ajuster un modèle à deux étapes, mais vous avez ensuite deux modèles (Y est la cible et X sont des covariables): P (Y = 0 | X) et P (Y | X; Y> 0). Vous devez utiliser la simulation pour «les réunir». Le livre de Gelmans (et le paquet de bras en R) montre ce processus pour ce modèle exact (en utilisant la régression logistique et la régression linéaire ordinaire avec un lien logarithmique).

L'autre option que j'ai vue et que j'aime mieux consiste à ajuster une régression gamma gonflée zéro, qui est la même que ci-dessus (mais gamma comme erreur au lieu de guassien) et vous pouvez les réunir pour des tests d'hypothèse sur P (Y | X) . Je ne sais pas comment faire cela en R, mais vous pouvez en SAS NLMIXED. Voir cet article , cela fonctionne bien.

— B_Miner
source

@B_Miner, merci beaucoup pour votre réponse, désolé, je n'ai pas assez de notes pour vous voter ... Je vais jeter un œil aux liens! Ma seule préoccupation concernant les modèles conditionnels est qu'ils postulent que les zéros ne peuvent pas appartenir au deuxième composant (continu), ai-je raison? Mon réglage ne ressemble-t-il pas un peu plus à un modèle de mélange? Qu'est-ce que tu penses?

— a11msp

J'ai maintenant reproduit l'approche en deux étapes proposée dans le livre Gelman. Si subset_factor (avec 25 niveaux) sert d'étiquette de sous-ensemble, la première étape est fit1 = glm (réponse ~ subset_factor, family = binomial); et la deuxième étape est fit2 = lm (réponse ~ sous-ensemble_facteur, sous-ensemble = réponse> 0). Je peux ensuite exécuter des simulations comme elles le décrivent pour obtenir la distribution des valeurs de réponse ajustées pour chaque niveau de facteur. Cependant, je ne sais toujours pas comment traduire cela en ce dont j'ai besoin, à savoir (a) la probabilité que les coefficients ne soient pas nuls et (b) la signification de la différence entre les coefficients à différents niveaux de facteur.

— a11msp

L'approche en deux étapes (méthode Gelman de deux modèles séparés) suppose deux populations, celles à zéro et celles ci-dessus.

— B_Miner

... serait-il donc approprié de dire simplement que si l'impact d'un certain niveau de facteur est significatif (et significativement différent de celui d'un autre niveau de facteur) dans l'un ou l'autre des deux modèles de la méthode de Gelman, alors il est globalement significatif?

— a11msp

Oui, l'approche en deux étapes (méthode Gelman de deux modèles séparés) suppose deux populations, celles à zéro et celles> 0. En ce qui concerne les tests d'hypothèse, pouvez-vous les encadrer en termes de valeurs prédites pour différents niveaux des entrées et construire des données empiriques intervalles de confiance liés aux simulations pour chacun? Pour les tests d'hypothèse pour le coefficient! = 0, vous devez le tester séparément pour les deux modèles.

— B_Miner

Une approche similaire à celle du papier Fletcher est utilisée dans les tests de marketing, où nous pouvons séparer arbitrairement les effets des interventions (telles que la publicité) en (a) un changement dans le nombre d'achat de la marque (c.-à-d. Proportion de zéros) et (b) a changement dans la fréquence d'achat du groupe (les ventes étant donné les ventes se produisent du tout). Il s'agit d'une approche solide et conceptuellement significative dans le contexte marketing et dans le contexte écologique dont Fletcher parle. En fait, cela peut être étendu à (c) un changement dans la taille de chaque achat.

— zbicycliste
source

Merci! Je me demande si vous êtes au courant d'une implémentation r existante de cela?

— 2011

Vous pouvez traiter le nombre exact de zéros inconnu, mais contraint entre 0 et le nombre de zéros observé. Cela peut sûrement être géré en utilisant une formulation bayésienne du modèle. Peut-être qu'une méthode d'imputation multiple peut également être modifiée pour faire varier de manière appropriée les poids (entre 0 et 1) des observations nulles…

— GaBorgulya
source