J'apprécierais grandement vos conseils sur le problème suivant:
J'ai un grand ensemble de données continu avec beaucoup de zéros (~ 95%) et je dois trouver la meilleure façon de tester si certains sous-ensembles sont "intéressants", c'est-à-dire qu'ils ne semblent pas provenir de la même distribution que le reste. L'inflation nulle vient du fait que chaque point de données est basé sur une mesure de comptage avec des zéros réels et d'échantillonnage, mais le résultat est continu car il prend en compte d'autres paramètres pondérés par le comptage (et donc si le comptage est nul, le résultat est également nul).
Quelle serait la meilleure façon de faire cela? J'ai le sentiment que Wilcoxon et même les tests de permutation par force brute sont inadéquats car ils sont biaisés par ces zéros. La focalisation sur des mesures non nulles supprime également les vrais zéros qui sont extrêmement importants. Les modèles zéro gonflés pour les données de comptage sont bien développés, mais ne conviennent pas à mon cas.
J'ai envisagé d'adapter une distribution Tweedie aux données, puis d'adapter un glm sur response = f (subset_label). Théoriquement, cela semble faisable, mais je me demande si (a) c'est exagéré et (b) supposerait toujours implicitement que tous les zéros sont des échantillons de zéros, c'est-à-dire seraient biaisés de la même manière (au mieux) qu'une permutation?
Intuitivement, cela ressemble à une sorte de conception hiérarchique qui combine une statistique binomiale basée sur la proportion de zéros et, par exemple, une statistique de Wilcoxon calculée sur des valeurs non nulles (ou, mieux encore, des valeurs non nulles complétées par une fraction de zéros basés sur certains précédents). Cela ressemble à un réseau bayésien ...
J'espère que je ne suis pas le premier à avoir ce problème, donc je serais très reconnaissant si vous pouviez me diriger vers les techniques existantes appropriées ...
Merci beaucoup!