J'ai ce que je pensais naïvement être un problème assez simple qui implique la détection de valeurs aberrantes pour de nombreux ensembles différents de données de comptage. Plus précisément, je veux déterminer si une ou plusieurs valeurs dans une série de données de comptage sont supérieures ou inférieures aux attentes par rapport au reste des dénombrements dans la distribution.
Le facteur de confusion est que je dois le faire pour 3500 distributions et il est probable que certaines d'entre elles correspondent à un poisson surdispersé gonflé zéro, tandis que d'autres peuvent mieux s'adapter à un binôme négatif ou ZINB, tandis que d'autres peuvent être normalement distribuées. Pour cette raison, les scores Z simples ou le tracé de la distribution ne conviennent pas à la plupart des ensembles de données. Voici un exemple des données de comptage pour lesquelles je souhaite détecter des valeurs aberrantes.
counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0
0 0 0 0 1 2 1 1 1 1 1 1 0 1 1 2 0 0 0 1 0 1 2 1 1 0 2 1 1 1 0 0 1 0 0 0
2 0 1 1 0 2 1 0 1 1 0 0 2 1 0 1 1 1 1 2 0 3]
counts2=[0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
1 1 0 0 0]
counts3=[14 13 14 14 14 14 13 14 14 14 14 14 15 14 14 14 14 14 14 15 14 13 14 14
15 12 13 17 13 14 14 14 14 15 14 14 13 14 13 14 14 14 14 13 14 14 14 15
15 14 14 14 14 14 15 14 1414 14 15 14 14 14 14 14 14 14 14 14 14 14 14 13 16]
counts4=[0 3 1.......]
and so on up to counts3500.
Au début, je pensais que j'aurais besoin d'écrire une boucle en Python ou R qui appliquerait un ensemble de modèles à chaque distribution et sélectionnerait le modèle le mieux adapté selon AIC ou autre (peut-être le fitdistrplus dans R?). Je pourrais alors demander quels étaient les extrêmes pour la distribution donnée (les comptes qui tombent dans les queues, par exemple un compte de "4" serait une valeur aberrante dans la distribution des comptes 1 ci-dessus?). Cependant, je ne suis pas sûr que ce soit une stratégie valable, et il m'est venu à l'esprit qu'il pourrait y avoir une méthodologie simple pour déterminer les valeurs aberrantes dans les données de comptage dont je n'étais pas au courant. J'ai cherché longuement et je n'ai rien trouvé qui semble approprié à mon problème étant donné le nombre de distributions que je veux regarder.
Mon but ultime est de détecter des augmentations ou des diminutions significatives d'un dénombrement pour chaque distribution de dénombrements, en utilisant la méthodologie la plus appropriée statistiquement.